Semantic Search

Recherche basée sur la signification sémantique vs correspondance de mots-clés exacte.

Semantic Search est une approche de recherche basée sur la signification sémantique (intention, contexte, synonymes) plutôt que sur la correspondance exacte de mots-clés. Utilise des embeddings vectoriels pour représenter requêtes et documents dans un espace sémantique commun, retournant des résultats pertinents même sans overlap lexical.

Exemple : recherche "animal de compagnie sympa pour appartement" trouvera documents sur "chats domestiques" ou "petits chiens" même sans contenir les mots exacts de la requête. Recherche keyword classique (BM25) raterait ces résultats.

Workflow : (1) **Indexing** — embed all documents/chunks via embedding model, store vectors dans vector DB ; (2) **Query** — embed user query avec même model, similarity search dans vector DB, return top-k closest documents.

Forces : (1) handles synonyms, paraphrasing, multilingual (cross-language search avec multilingual embeddings) ; (2) understands query intent ("how to fix slow website" matches docs on "performance optimization") ; (3) better recall pour questions naturelles ; (4) enables RAG.

Faiblesses pures semantic search : (1) misses exact keyword matches importants (référence à produit code "XYZ-123" ou jargon technique précis) ; (2) less interpretable que keyword search ; (3) requires embedding model quality matching domain.

Hybrid search : combine semantic (vector) + lexical (BM25) avec score fusion (alpha-weighted, Reciprocal Rank Fusion — RRF). Best of both worlds : exact keyword matching pour quand it matters + semantic understanding pour natural queries. Supported by Weaviate, Qdrant, Elastic, OpenSearch.

Reranking improvement : initial retrieve k=50-100 via semantic search, then rerank with cross-encoder model (Cohere Rerank, BGE Reranker, Voyage Rerank) for final top 5-10 — significantly improves precision at low cost.

Use cases : enterprise search (replacing intranets), customer support (find relevant tickets), product search e-commerce ("comfortable shoes for running on trails"), legal/medical research, code search. Compétences AI-102, PMLE.

Préparez vos certifications IT gratuitement