RAG (Retrieval-Augmented Generation)

Le RAG (Retrieval-Augmented Generation) est un pattern d'architecture qui combine un LLM avec un système de recherche documentaire pour produire des réponses ancrées dans des données spécifiques (à jour, privées, factuelles). Le LLM ne se base plus uniquement sur ses connaissances figées d'entraînement, mais récupère dynamiquement des informations pertinentes pour formuler ses réponses.

Le pipeline RAG classique : (1) ingestion — découper les documents en chunks, calculer leurs embeddings (vecteurs sémantiques) avec un modèle comme text-embedding-3-large ou Voyage AI, stocker dans une vector database (Pinecone, Weaviate, Qdrant, pgvector, Chroma) ; (2) requête — encoder la question utilisateur en vecteur, récupérer les K chunks les plus similaires (cosine similarity) ; (3) génération — passer la question + les chunks récupérés au LLM en contexte pour qu'il génère une réponse ancrée.

Avantages : réponses à jour, citations vérifiables, données privées non exposées dans le training, beaucoup moins coûteux que le fine-tuning. Variantes avancées : hybrid search (BM25 + vector), reranking (Cohere Rerank), GraphRAG, agentic RAG. C'est la principale architecture des chatbots d'entreprise. Compétence centrale dans AI-050, AI-102.

Préparez vos certifications IT gratuitement