RAG (Retrieval-Augmented Generation)

Pattern augmentant LLM avec retrieval de documents pertinents avant génération.

Retrieval-Augmented Generation (RAG) est un pattern d'architecture pour systèmes LLM combinant retrieval de documents pertinents (depuis vector DB ou autre store) avec génération par LLM. Permet aux LLMs de répondre questions basées sur des knowledge bases custom (docs internes, FAQs, manuels) sans fine-tuning, et de réduire hallucinations en grounding sur sources factuelles.

Architecture standard : (1) **Indexing phase** (offline) — split documents en chunks, generate embeddings via embedding model (OpenAI, Cohere, BGE), store dans vector DB avec metadata ; (2) **Query phase** (runtime) — user question reçue, embed la question, retrieve top-k chunks similaires depuis vector DB, construct prompt = system instructions + retrieved context + user question, send to LLM, return generated answer optionally with source citations.

Variantes avancées : (1) **Hybrid search** — combine vector similarity + BM25 keyword pour better recall ; (2) **Reranking** — initial retrieve k=50, rerank with cross-encoder (Cohere Rerank, BGE Reranker) keep top 5-10 pour final prompt ; (3) **Multi-query** — LLM generate multiple paraphrasings of user query for broader retrieval ; (4) **HyDE (Hypothetical Document Embeddings)** — LLM generate hypothetical answer, embed it, retrieve real docs similar to it ; (5) **Contextual compression** — filter/summarize retrieved chunks before sending to LLM ; (6) **Self-RAG** — LLM decides when to retrieve and rates retrieved relevance ; (7) **Agentic RAG** — agent reasons about what to retrieve iteratively ; (8) **GraphRAG** (Microsoft Research 2024) — knowledge graph + RAG combining structured et unstructured retrieval.

Frameworks : (1) **LangChain** — popular orchestration ; (2) **LlamaIndex** — RAG-specialized framework ; (3) **Haystack** (deepset) — enterprise RAG ; (4) **DSPy** (Stanford) — programmatic prompting ; (5) **Vercel AI SDK** ; (6) custom code avec OpenAI/Anthropic SDK + vector DB SDK direct.

Use cases : enterprise knowledge bases, customer support chatbots, code documentation Q&A, legal research, medical literature search, technical documentation assistants. Compétences AI-102, AIF-C01, PMLE.

Préparez vos certifications IT gratuitement