AccueilGlossaire › QLoRA (Quantized LoRA)

QLoRA (Quantized LoRA)

AI/ML

LoRA combiné avec quantization 4-bit pour fine-tuner LLMs 70B sur GPU consumer.

QLoRA (Quantized LoRA, Dettmers et al. 2023) combine LoRA avec quantization agressive 4-bit du modèle base pour fine-tuner des LLMs massifs (Llama 65B, 70B) sur un seul GPU consumer 48 GB VRAM. Démocratise le fine-tuning de très grands modèles, auparavant réservé aux acteurs avec multi-GPU clusters.

Innovations : (1) **4-bit NormalFloat (NF4)** — type quantization optimisé pour distributions Gaussian de weights LLM (information-theoretically optimal pour weights normally distributed) ; (2) **Double Quantization** — quantize les constants de quantization elle-mêmes, additional memory savings ; (3) **Paged Optimizers** — utilise NVIDIA Unified Memory pour avoid OOM lors d'optimizer state spikes (paging vers RAM) ; (4) LoRA adapters trained en fp16/bf16 sur top de base quantized 4-bit.

Memory savings exemple Llama 65B : (1) full fp16 fine-tuning : ~780 GB VRAM (impossible single GPU) ; (2) LoRA fp16 : ~130 GB (multi-A100 needed) ; (3) QLoRA 4-bit : ~33 GB (single A6000 48 GB or A100 80 GB).

Tradeoffs : (1) quantization causes small accuracy loss (typically <1% on benchmarks) ; (2) slower training que LoRA full precision (quantize/dequantize overhead) ; (3) inference still slower que pure quantized model (LoRA on top adds compute).

Workflow QLoRA : (1) load base model in 4-bit NF4 via bitsandbytes ; (2) add LoRA adapters with rank 16-64 typically ; (3) train on instruction dataset (Alpaca, OpenAssistant, custom) ; (4) save tiny LoRA checkpoint (~100 MB) ; (5) inference : either keep separate (load base 4-bit + LoRA) ou merge LoRA into fp16 base for production.

Frameworks supportant QLoRA : HuggingFace PEFT + bitsandbytes + transformers, Axolotl, Unsloth (2x faster), Litgpt, MLX (Apple Silicon), torchtune (PyTorch native).

Use cases : same as LoRA but for larger models accessible aux indépendants, startups, chercheurs. Combinaison avec techniques avancées : QDoRA, MoRA, GaLore. Compétences AI-102, PMLE.

Certifications qui couvrent ce concept
AI-102 AIF-C01 PMLE
Termes liés
LoRA (Low-Rank Adaptation) PEFT (Parameter-Efficient Fine-Tuning) Fine-tuning LLM (Large Language Model)

Préparez vos certifications IT gratuitement

200+ certifications, 400 000+ questions, examens blancs chronométrés.

Voir le catalogue →
← Retour au glossaire