AccueilGlossaire › Context Window

Context Window

AI/ML

Quantité maximale de tokens qu'un LLM peut traiter dans une requête.

Le Context Window (fenêtre de contexte) est la quantité maximale de tokens (input + output) qu'un LLM peut traiter dans une seule requête. Détermine combien d'information (instructions système, history conversation, documents retrieved, output) le modèle peut considérer simultanément.

Évolution rapide 2023-2026 : GPT-3.5 4K tokens (2022) → GPT-4 8K/32K (2023) → Claude 2 100K → Claude 3 200K → Gemini 1.5 Pro 2M (2024) → Claude 4.7 1M → modèles expérimentaux 10M+. Course aux long contexts permet use cases nouveaux.

Use cases enabled par long context : (1) entire codebase loaded (analyze 100k+ lines) ; (2) entire book ingested pour Q&A ; (3) full conversation history persistent (no summarization needed) ; (4) RAG avec moins de chunking aggressif ; (5) multi-document synthesis natif.

Défis long context : (1) **Cost** — pricing proportional aux tokens, 1M context query peut coûter \$1-10+ ; (2) **Latency** — TTFT (Time To First Token) augmente avec context size, 1M context = 30s-1min wait sur certains models ; (3) **Quality degradation** — "Lost in the middle" phenomenon (Liu et al. 2023) — LLMs souvent ratent information au milieu de long contexts, attention plus forte début/fin. Récents modèles améliorent grâce à needle-in-haystack training ; (4) **Compute resources** — attention quadratique O(n²) en mémoire (atténué par tricks comme sliding window attention, ring attention, Mamba state-space models).

Stratégies si context insufficient : (1) **RAG** — chunk + retrieve only relevant parts ; (2) **Summarization** chained — summarize old conversation turns ; (3) **Compression** — extract key info, drop verbosity ; (4) **Routing** — multiple smaller specialized agents vs single large context ; (5) **Hierarchical** — outline-then-detail.

Pricing typique (Claude Opus 4.7, fictif example) : Input ~$15/1M tokens, Output ~$75/1M tokens. Input cache ~10% du prix base. Long context queries peuvent rapidement coûter cher — monitorer usage et caching (Anthropic prompt caching, OpenAI prompt caching) crucial pour économies. Compétences AI-102, PMLE.

Certifications qui couvrent ce concept
AI-102 AIF-C01 PMLE
Termes liés
LLM (Large Language Model) Tokenizer RAG (Retrieval-Augmented Generation) Chunking (Text Splitting)

Préparez vos certifications IT gratuitement

200+ certifications, 400 000+ questions, examens blancs chronométrés.

Voir le catalogue →
← Retour au glossaire