Transformer (Architecture)

Architecture neural network avec self-attention, base de tous les LLMs modernes.

L'architecture Transformer, introduite dans "Attention is All You Need" (Vaswani et al., Google 2017), est le fondement de presque tous les LLMs modernes (GPT, Claude, Gemini, Llama, Mistral). Elle remplace les RNN/LSTM séquentiels par self-attention parallélisable, permettant entraînement à grande échelle sur GPUs/TPUs et meilleure capture de dépendances long-range.

Deux variantes principales : (1) **Encoder-Decoder** (original paper, T5, BART) — encoder pour comprendre input, decoder pour générer output, cross-attention entre les deux. Idéal traduction, summarization ; (2) **Encoder-only** (BERT, RoBERTa) — bidirectionnel, idéal classification, NER, semantic search via embeddings ; (3) **Decoder-only** (GPT, Llama, Claude) — autoregressif, génération de texte, devient dominant pour LLMs.

Composants clés par layer : (1) Multi-Head Self-Attention ; (2) Add & Norm (residual + LayerNorm/RMSNorm) ; (3) Feed-Forward Network (typically gated, SwiGLU dans modernes) ; (4) Add & Norm. Stack de N=12-100+ layers selon taille modèle.

Évolutions modernes : RoPE (Rotary Position Embeddings) vs absolute positional encoding original, GQA (Grouped Query Attention) memory-efficient, SwiGLU activation, RMSNorm vs LayerNorm, sliding window attention (Mistral), MoE (Mixture of Experts — Mixtral, GPT-4 rumored).

Alternatives émergentes : Mamba (State Space Models), RWKV, Hyena — promettent O(n) vs O(n²) attention, mais Transformer reste dominant. Compétences AI-102, PMLE.

Préparez vos certifications IT gratuitement