LoRA combiné avec quantization 4-bit pour fine-tuner LLMs 70B sur GPU consumer.
QLoRA (Quantized LoRA, Dettmers et al. 2023) combine LoRA avec quantization agressive 4-bit du modèle base pour fine-tuner des LLMs massifs (Llama 65B, 70B) sur un seul GPU consumer 48 GB VRAM. Démocratise le fine-tuning de très grands modèles, auparavant réservé aux acteurs avec multi-GPU clusters.
Innovations : (1) **4-bit NormalFloat (NF4)** — type quantization optimisé pour distributions Gaussian de weights LLM (information-theoretically optimal pour weights normally distributed) ; (2) **Double Quantization** — quantize les constants de quantization elle-mêmes, additional memory savings ; (3) **Paged Optimizers** — utilise NVIDIA Unified Memory pour avoid OOM lors d'optimizer state spikes (paging vers RAM) ; (4) LoRA adapters trained en fp16/bf16 sur top de base quantized 4-bit.
Memory savings exemple Llama 65B : (1) full fp16 fine-tuning : ~780 GB VRAM (impossible single GPU) ; (2) LoRA fp16 : ~130 GB (multi-A100 needed) ; (3) QLoRA 4-bit : ~33 GB (single A6000 48 GB or A100 80 GB).
Tradeoffs : (1) quantization causes small accuracy loss (typically <1% on benchmarks) ; (2) slower training que LoRA full precision (quantize/dequantize overhead) ; (3) inference still slower que pure quantized model (LoRA on top adds compute).
Workflow QLoRA : (1) load base model in 4-bit NF4 via bitsandbytes ; (2) add LoRA adapters with rank 16-64 typically ; (3) train on instruction dataset (Alpaca, OpenAssistant, custom) ; (4) save tiny LoRA checkpoint (~100 MB) ; (5) inference : either keep separate (load base 4-bit + LoRA) ou merge LoRA into fp16 base for production.
Frameworks supportant QLoRA : HuggingFace PEFT + bitsandbytes + transformers, Axolotl, Unsloth (2x faster), Litgpt, MLX (Apple Silicon), torchtune (PyTorch native).
Use cases : same as LoRA but for larger models accessible aux indépendants, startups, chercheurs. Combinaison avec techniques avancées : QDoRA, MoRA, GaLore. Compétences AI-102, PMLE.
200+ certifications, 400 000+ questions, examens blancs chronométrés.
Voir le catalogue →