Attention (Mechanism)

Mécanisme permettant aux modèles de focaliser sur les parties pertinentes de l'input.

Le mécanisme d'Attention permet à un modèle (typiquement Transformer) de pondérer dynamiquement l'importance de chaque token d'input lors du calcul de la représentation d'un token donné. Innovation centrale du paper "Attention is All You Need" (Vaswani et al. 2017, Google) qui a lancé l'ère Transformer.

Intuition : pour comprendre le mot "banque" dans "je suis allé à la banque pour retirer de l'argent", le modèle apprend à attentioner les mots contexte "argent", "retirer" qui désambiguïsent (vs "banque" comme rivage). Pas de fenêtre fixe — full pairwise attention to all tokens.

Self-attention formula : `Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V`. Q (queries), K (keys), V (values) sont projections linéaires de l'input. Chaque token attend à tous les autres via produit scalaire query·key, softmax-normalized en weights, then weighted sum of values.

Multi-Head Attention : multiple parallel attention heads (typiquement 8-128) capturent différents types de relations (syntactic, semantic, coreference, etc.). Outputs concatenated puis projected.

Complexity O(n²) en sequence length — bottleneck pour long contexts. Solutions modernes :
(1) **Sparse attention** — Longformer (sliding window + global), BigBird (random + global + window) ;
(2) **Linear attention** — Performer, Linformer ;
(3) **Flash Attention** (Dao et al.) — hardware-aware, fast exact attention avec efficient memory access patterns ;
(4) **Grouped Query Attention (GQA)** — Llama 2/3 share K, V across multiple Q heads (reduce KV cache memory) ;
(5) **Sliding Window Attention** — Mistral attends only to local window (4096 tokens) ;
(6) **Ring Attention** — distributed across multiple GPUs/TPUs ;
(7) **Mamba / State Space Models** — alternative architecture O(n) complexity ;
(8) **MQA (Multi-Query Attention)** — single K, V shared across all heads.

KV cache : during inference, K et V computed for previous tokens cached pour avoid recomputation — major memory cost mais speedup massif autoregressive generation.

Impact : attention a transformé NLP (BERT, GPT), vision (ViT), audio, multimodal, ML scientific (AlphaFold). Compétences AI-102, PMLE.

Préparez vos certifications IT gratuitement