AccueilGlossaire › Hybrid Search

Hybrid Search

AI/ML

Combinaison de semantic search (vectors) et keyword search (BM25) pour meilleure pertinence.

Hybrid Search est une approche combinant semantic search (vector similarity) et keyword search (BM25 / full-text) pour bénéficier des forces des deux : sémantique compréhensive ET matching exact keywords. Devenu standard pour RAG production-grade.

Problème résolu : (1) pure semantic miss specific terms (acronyms, codes produits, jargon : "CVE-2024-1234" ou "SKU-AB-XYZ-123" peuvent ne pas avoir embeddings discriminants) ; (2) pure keyword miss paraphrases et synonyms.

Approches de fusion : (1) **Score fusion linéaire** — `score_final = alpha * score_semantic + (1-alpha) * score_keyword`, alpha tuné (typiquement 0.5-0.7 favor semantic) ; (2) **Reciprocal Rank Fusion (RRF)** — formule `score = sum(1 / (k + rank_in_list_i))` for each result list, k=60 default ; robust, no score normalization needed, recommended ; (3) **Late interaction models** (ColBERT) — vectorize at token level then late aggregate, hybrid by design but more compute.

Implémentations : (1) **Weaviate** native (hybrid endpoint avec alpha) ; (2) **Qdrant** sparse + dense vectors combinés ; (3) **Elasticsearch** et **OpenSearch** kNN + lexical via Reciprocal Rank Fusion ; (4) **Vespa** state-of-the-art hybrid ; (5) **Pinecone** sparse-dense hybrid index ; (6) custom in pgvector avec SQL combining `ts_rank` (full-text) + `<=>` (vector distance).

Best practices : (1) use BM25 ou similar (sparse) AND dense vectors ; (2) RRF preferred over weighted sum (no tuning required) ; (3) consider sparse models (SPLADE, BM25) for sparse component, traditional BM25 ou advanced ; (4) reranking après hybrid for final precision ; (5) experiment alpha values on representative eval set ; (6) measure with NDCG, Recall@k, MRR metrics.

Real-world impact : papers et industry reports show hybrid search improves recall 10-30% over pure semantic on heterogeneous content (technical docs, e-commerce, code search). Compétences AI-102, PMLE.

Certifications qui couvrent ce concept
AI-102 AIF-C01 PMLE
Termes liés
Semantic Search Reranking Vector Database Embedding (Vector Embedding)

Préparez vos certifications IT gratuitement

200+ certifications, 400 000+ questions, examens blancs chronométrés.

Voir le catalogue →
← Retour au glossaire