PEFT (Parameter-Efficient Fine-Tuning)

Catégorie de techniques fine-tuning n'entraînant qu'une fraction des paramètres.

PEFT (Parameter-Efficient Fine-Tuning) est l'ensemble des techniques de fine-tuning qui n'entraînent qu'une petite fraction (souvent <1%) des paramètres totaux d'un LLM pré-entraîné, freezing le reste. Permet de fine-tuner des modèles massifs avec GPU memory et temps limités, et de maintenir des centaines de variants compacts pour différents tasks/domains.

Techniques PEFT majeures :
(1) **LoRA** (Low-Rank Adaptation) — injecte matrices low-rank trainables A et B (W' = W + B·A), most popular.
(2) **QLoRA** — LoRA + 4-bit quantization du base model.
(3) **DoRA** (Weight-Decomposed LoRA) — décompose en magnitude + direction.
(4) **AdaLoRA** — adaptive rank par layer selon importance.
(5) **IA3** (Infused Adapter by Inhibiting and Amplifying Inner Activations) — encore moins de params que LoRA, scale activations.
(6) **Prefix Tuning** — adds trainable prefix tokens to each layer's K, V.
(7) **P-Tuning v2** — soft prompts apprises par layer.
(8) **Prompt Tuning** — soft prompt prepended to input only (least params).
(9) **Adapter modules** (Houlsby 2019) — small FFN layers inserted between transformer layers.
(10) **BitFit** — only fine-tune bias terms.
(11) **LayerNorm tuning** — only LayerNorm params.

Libraires : (1) **HuggingFace PEFT** (peft) — unified API pour tous methods ; (2) **Axolotl** — opinionated training framework ; (3) **Unsloth** — speed-optimized ; (4) **torchtune** PyTorch native ; (5) **LLaMA-Factory** ; (6) **xtuner**.

Use cases : (1) domain adaptation (medical, legal, finance specialized models) ; (2) instruction tuning sur datasets custom ; (3) personalization (chatbot persona, brand voice) ; (4) multi-task — load different adapter par task ; (5) multi-tenant SaaS (one LoRA per customer) ; (6) preference optimization (RLHF, DPO with PEFT) ; (7) Stable Diffusion style/character LoRAs.

Comparaison : full fine-tuning (best quality, expensive) > LoRA/QLoRA (great quality, affordable) > prompt tuning (cheapest, lower quality). LoRA domine pratique 2024+. Compétences AI-102, PMLE.

Préparez vos certifications IT gratuitement