Technique alignement LLMs via reward model trained sur préférences humaines.
RLHF (Reinforcement Learning from Human Feedback) est la technique d'alignement des LLMs popularisée par ChatGPT (OpenAI 2022). Permet de raffiner un LLM pré-entraîné pour mieux suivre instructions, être helpful/harmless/honest, et matcher préférences humaines en utilisant feedback humain comme signal d'apprentissage.
Pipeline RLHF classique (InstructGPT, Ouyang et al. 2022) :
(1) **Supervised Fine-Tuning (SFT)** — fine-tune LLM pré-entraîné sur dataset de demonstrations humaines (prompt → ideal response écrit par humain).
(2) **Reward Model (RM) training** — collect comparisons humaines ("response A meilleure que B pour ce prompt ?"), entraîner un model (souvent LLM 6B+ initialized from SFT model) prédisant scalar reward pour any (prompt, response).
(3) **Policy optimization** — fine-tune SFT model avec RL algorithm (PPO — Proximal Policy Optimization) maximisant reward selon RM, avec KL divergence penalty pour rester proche du SFT model (avoid reward hacking).
Variantes et améliorations : (1) **DPO** (Direct Preference Optimization, Rafailov 2023) — élimine reward model, optimize directement preferences via simpler loss — significantly easier et stable que RLHF-PPO ; (2) **IPO** (Identity Preference Optimization) ; (3) **KTO** (Kahneman-Tversky Optimization) — utilise binary feedback (good/bad) au lieu de pairwise ; (4) **RLAIF** (RL from AI Feedback) — replace human annotators by LLM judges pour scale ; (5) **Constitutional AI** (Anthropic) — utilise principles écrits + LLM critique pour generate preferences automatically ; (6) **ORPO** — odds ratio preference optimization.
Défis RLHF : (1) **Reward hacking** — model exploit weaknesses du RM (verbose responses, sycophancy) ; (2) **Distribution shift** — RM trained on certain distribution, breaks on outputs hors distribution ; (3) **Human bias** — annotators biases propagated ; (4) **Cost** — collect quality human preferences expensive ($10-100k+ pour datasets meaningful) ; (5) **Mode collapse** — diversity reduced after RLHF.
Frameworks open source : (1) **TRL** (HuggingFace) — PPO, DPO, KTO, ORPO ; (2) **OpenRLHF** ; (3) **TRLX** (CarperAI) ; (4) **safe-rlhf** (PKU) ; (5) **DeepSpeed Chat**. Compétences AI-102, PMLE.
200+ certifications, 400 000+ questions, examens blancs chronométrés.
Voir le catalogue →