Reranking

Étape de post-retrieval réordonnant les résultats avec un modèle plus précis.

Reranking est une étape de post-retrieval consistant à réordonner les top-k résultats retournés par un retriever rapide (embedding similarity, BM25) avec un modèle plus précis et coûteux — typiquement un cross-encoder — pour améliorer significativement la précision finale du RAG ou de la search.

Différence bi-encoder vs cross-encoder : (1) **bi-encoder** (embedding model) — encode query et document indépendamment en vecteurs, similarity calculée a posteriori (cosine). Fast (precompute doc embeddings, query encode at runtime), scalable (millions docs). Used pour retrieval phase. ; (2) **cross-encoder** — query + document passed together to model, outputs single relevance score. Slow (must run model per (query, doc) pair, no precompute possible), but much more accurate (model attends to interaction features). Used for reranking small candidate set.

Workflow standard : (1) retrieve top 50-100 documents avec bi-encoder fast retrieval ; (2) cross-encoder rerank these 50-100 ; (3) keep top 5-10 for final LLM context ou user display.

Reranker models : (1) **Cohere Rerank** — managed API (rerank-english-v3.0, rerank-multilingual-v3.0), best-in-class quality, $1-2/1000 queries ; (2) **Voyage Rerank** — competitive ; (3) **Jina Reranker** ; (4) **BGE Reranker** (BAAI) — open source, self-hostable (BGE-reranker-large, BGE-reranker-v2-m3 multilingual) ; (5) **Cross-encoder models** sur HuggingFace (ms-marco-MiniLM-L-12-v2, etc.) ; (6) **ColBERT** — late interaction, hybrid retriever-reranker ; (7) **MonoT5** — T5-based ranker ; (8) **LLM-as-judge reranking** — use GPT-4/Claude pour score, expensive but flexible.

Impact mesuré : reranking improves NDCG@10 par 10-30% sur typical benchmarks (BEIR, MS MARCO) vs pure bi-encoder retrieval. Cost-effective : 100ms latency added pour rerank 50 docs, but final LLM call is shorter et plus précis (less context needed).

Use cases : production RAG demanding high precision (customer support, legal, medical), e-commerce search, code search. Compétences AI-102, PMLE.

Préparez vos certifications IT gratuitement