LLM (Large Language Model)

Un LLM (Large Language Model) est un modèle d'intelligence artificielle entraîné sur d'immenses corpus de texte (centaines de milliards de tokens — livres, articles, code, web), basé sur l'architecture Transformer (introduite par Google en 2017 — "Attention is All You Need"). Les LLMs possèdent typiquement des dizaines à des centaines de milliards de paramètres et excellent dans les tâches de génération de texte, traduction, raisonnement, code.

Les LLMs phares (2026) : GPT-4/5 (OpenAI), Claude 3/4 (Anthropic), Gemini 1.5/2 (Google), Llama 3 (Meta, open source), Mistral Large (Mistral AI, open source partiel), Command R+ (Cohere). On distingue les modèles propriétaires (API) et open-weight (téléchargeables). Les tailles vont de 1B paramètres (modèles efficaces) à plusieurs trillions (mixture of experts).

Les usages : chatbots (ChatGPT, Claude), assistants de code (Copilot, Cursor), résumé/extraction, traduction, génération de contenu, agents autonomes. Limitations : hallucinations (générations incorrectes mais convaincantes), biais, knowledge cutoff (connaissances limitées dans le temps), coûts compute. Le RAG (Retrieval-Augmented Generation) et le fine-tuning enrichissent les usages enterprise. Compétence centrale dans AIF-C01, AI-050, AI-102, ISO 42001.

Préparez vos certifications IT gratuitement