Discipline visant à garantir que les systèmes IA agissent conformément aux intentions humaines.
AI Safety est la discipline visant à garantir que les systèmes IA — particulièrement les LLMs et systèmes plus avancés — agissent conformément aux intentions humaines et n'engendrent pas de dommages catastrophiques. Champ croissant rapidement face aux capabilities AI explosives, avec acteurs académiques (MIRI, ARC, Stanford HAI, MILA), labs majeurs (Anthropic, OpenAI Safety, DeepMind Safety), et gouvernements (UK AI Safety Institute, US AISI, EU AI Act).
Problématiques principales :
(1) **Alignment** — comment s'assurer qu'un AI optimise pour ce qu'on veut vraiment, pas une approximation détournée (problème classique : reward hacking, specification gaming).
(2) **Honesty / Hallucinations** — model invente faits convaincants, propagation misinformation.
(3) **Harm / Toxicity** — généré du contenu offensant, dangereux, illegal.
(4) **Bias** — perpetuating ou amplifying social biases (genre, race, etc.).
(5) **Dual use** — capabilities helpful peuvent être misused (bio/chem/cyber weapons design).
(6) **Autonomy & Control** — agents autonomes avec capacités dangereuses (financial, weapons systems).
(7) **Power concentration** — quelques labs contrôlant superintelligent AI.
(8) **Existential risk** — AGI mal aligné représente menace humanité (Bostrom, MIRI thesis).
Méthodes de mitigation :
(1) **RLHF, Constitutional AI** — align models with human values via training.
(2) **Red-teaming** — adversarial testing pour découvrir failure modes (jailbreaks, harmful outputs).
(3) **Refusal training** — train models à refuser requêtes dangereuses.
(4) **Watermarking** — détecter contenu AI-generated.
(5) **Interpretability research** — comprendre internals des modèles (Anthropic mechanistic interpretability, sparse autoencoders).
(6) **Scaling oversight** — comment superviser systèmes plus intelligents que humains (debate, weak-to-strong generalization).
(7) **Constitutional Classifiers** (Anthropic 2025) — runtime filtering harmful queries.
(8) **Sandboxing** — isolated execution environments.
(9) **Capability evaluations** — measure dangerous capabilities (CBRN, autonomy, cyber).
Gouvernance : (1) **EU AI Act** (2024) — risk-based regulation, prohibited / high-risk / limited risk AI ; (2) **Biden Executive Order** (2023, partially rescinded 2025) ; (3) **UK AISI, US AISI** — government safety testing ; (4) **Frontier Model Forum** (industry self-regulation) ; (5) **Responsible Scaling Policies** (Anthropic, OpenAI, DeepMind publicly committed).
Resources : ARENA (alignment research) Substack, Alignment Forum, MIRI, Center for AI Safety, FHI Oxford. Compétences AIF-C01, AI-102.
200+ certifications, 400 000+ questions, examens blancs chronométrés.
Voir le catalogue →