Instruction Tuning (Supervised Fine-Tuning)

Fine-tuning d'un LLM pour suivre instructions natural language via dataset prompt/réponse.

Instruction Tuning (aussi appelé Supervised Fine-Tuning — SFT, ou Instruction Fine-Tuning — IFT) est l'étape de fine-tuning consistant à entraîner un LLM pré-entraîné (qui prédit juste next token) à suivre des instructions naturelles via un dataset de paires (instruction, réponse idéale). Transforme un LLM "base" en un LLM "chat" / "instruct" utile.

Pourquoi nécessaire : pretrained LLMs base prédissent next token learned from text crawled web — bons à completer texts mais pas à suivre instructions. Exemple : prompt "Summarize this article: ..." — base model peut continuer le texte au lieu de summarize. Instruction tuning enseigne le format Q&A / instruction → response.

Datasets instruction tuning notables : (1) **Alpaca** (Stanford 2023) — 52k instructions generated by GPT-3.5, first major open instruction dataset ; (2) **Dolly 15k** (Databricks) — human-written ; (3) **OpenAssistant** (LAION) — community-driven ; (4) **FLAN** (Google) — collection de tasks NLP formatted as instructions ; (5) **SuperNaturalInstructions** ; (6) **No Robots** (HuggingFace) ; (7) **UltraFeedback** ; (8) **WildChat** — real user conversations ; (9) **OpenHermes** ; (10) **Tulu** (AI2). Quality > quantity reconnu — LIMA paper (Meta) shows 1000 high-quality examples can match larger noisy datasets.

Format training : typically (system message, user query, assistant response) tuples. Format chat templates standardisés émergent (ChatML by OpenAI, Llama format, Mistral format, etc.). Special tokens (<|im_start|>, <|im_end|>, [INST], [/INST]) marquent rôles.

Full SFT vs PEFT SFT : (1) full SFT — train all params, best quality, expensive ; (2) LoRA/QLoRA SFT — efficient, near-equivalent quality. Typique stack open source : (a) start with pretrained base (Llama 3 70B) ; (b) full SFT or QLoRA SFT on instruction dataset ; (c) preference optimization (DPO ou RLHF) on preference data ; (d) deploy.

Défis : (1) **catastrophic forgetting** — model perd capabilities générales si SFT dataset trop narrow ; (2) **prompt format dependency** — model overfit on specific prompt format used training ; (3) **toxic/biased data propagation** ; (4) **evaluation difficile** (benchmarks like MT-Bench, AlpacaEval, Arena Hard).

Frameworks : Axolotl, HuggingFace TRL SFTTrainer, Unsloth, Llama-Factory, torchtune. Compétences AI-102, PMLE.

Préparez vos certifications IT gratuitement