RLHF (Reinforcement Learning from Human Feedback)

RLHF (Reinforcement Learning from Human Feedback) est la technique d'alignement des LLMs popularisée par ChatGPT (OpenAI 2022). Permet de raffiner un LLM pré-entraîné pour mieux suivre instructions, être helpful/harmless/honest, et matcher préférences humaines en utilisant feedback humain comme signal d'apprentissage.

Pipeline RLHF classique (InstructGPT, Ouyang et al. 2022) :
(1) **Supervised Fine-Tuning (SFT)** — fine-tune LLM pré-entraîné sur dataset de demonstrations humaines (prompt → ideal response écrit par humain).
(2) **Reward Model (RM) training** — collect comparisons humaines ("response A meilleure que B pour ce prompt ?"), entraîner un model (souvent LLM 6B+ initialized from SFT model) prédisant scalar reward pour any (prompt, response).
(3) **Policy optimization** — fine-tune SFT model avec RL algorithm (PPO — Proximal Policy Optimization) maximisant reward selon RM, avec KL divergence penalty pour rester proche du SFT model (avoid reward hacking).

Variantes et améliorations : (1) **DPO** (Direct Preference Optimization, Rafailov 2023) — élimine reward model, optimize directement preferences via simpler loss — significantly easier et stable que RLHF-PPO ; (2) **IPO** (Identity Preference Optimization) ; (3) **KTO** (Kahneman-Tversky Optimization) — utilise binary feedback (good/bad) au lieu de pairwise ; (4) **RLAIF** (RL from AI Feedback) — replace human annotators by LLM judges pour scale ; (5) **Constitutional AI** (Anthropic) — utilise principles écrits + LLM critique pour generate preferences automatically ; (6) **ORPO** — odds ratio preference optimization.

Défis RLHF : (1) **Reward hacking** — model exploit weaknesses du RM (verbose responses, sycophancy) ; (2) **Distribution shift** — RM trained on certain distribution, breaks on outputs hors distribution ; (3) **Human bias** — annotators biases propagated ; (4) **Cost** — collect quality human preferences expensive ($10-100k+ pour datasets meaningful) ; (5) **Mode collapse** — diversity reduced after RLHF.

Frameworks open source : (1) **TRL** (HuggingFace) — PPO, DPO, KTO, ORPO ; (2) **OpenRLHF** ; (3) **TRLX** (CarperAI) ; (4) **safe-rlhf** (PKU) ; (5) **DeepSpeed Chat**. Compétences AI-102, PMLE.

Préparez vos certifications IT gratuitement