Encoder-Decoder Architecture

L'architecture Encoder-Decoder est la forme originale du Transformer (paper 2017), avec deux composants distincts : (1) **Encoder** — process l'input bidirectionnellement (attention sur tout l'input), produit représentations contextuelles ; (2) **Decoder** — génère output autoregressivement (token by token, attention causale sur tokens déjà générés), avec cross-attention vers les representations encoder.

Use cases idéaux : traduction (encoder lit phrase source, decoder génère phrase cible), summarization (encoder lit article, decoder génère résumé), question answering, code generation, structured output. Tâches où input et output sont distincts et input doit être totally compris avant génération.

Modèles encoder-decoder : (1) **T5** (Text-to-Text Transfer Transformer, Google 2020) — frame all NLP tasks as text-to-text ; (2) **BART** (Meta) — denoising autoencoder, fort en summarization ; (3) **mT5, mBART** — multilingual ; (4) **PaLM-E**, **Flan-T5** ; (5) **CodeT5**, **CodeT5+** ; (6) **NLLB** (Meta) — 200+ langues traduction ; (7) **MarianMT** ; (8) **Pegasus** (summarization).

Vs Decoder-only (GPT/Claude/Llama) : décoder-only domine 2023+ pour conversational AI et general LLMs, mais encoder-decoder reste optimal pour tâches structurées input→output bien définies. Encoder-only (BERT) pour classification/embeddings. Choix : encoder-decoder = best of both worlds when input et output clairement séparés.

Préparez vos certifications IT gratuitement