Chunking (Text Splitting)

Chunking (text splitting) est l'étape consistant à découper documents larges en chunks plus petits pour indexation dans vector DB et retrieval RAG. Stratégie critique impactant directement la qualité du RAG — chunks trop grands diluent la pertinence, trop petits perdent contexte.

Stratégies de chunking :
(1) **Fixed-size chunking** — split par nombre de caractères/tokens fixe (e.g. 512 tokens) avec overlap (50-100 tokens) pour éviter perte de contexte aux frontières. Simple, mais split au milieu de phrases/idées.
(2) **Recursive character splitting** (LangChain RecursiveCharacterTextSplitter) — split d'abord par paragraphs (\n\n), puis sentences (.), puis words si chunk encore trop grand. Préserve structure naturelle texte.
(3) **Semantic chunking** — embed sentences, group consecutive sentences avec similar embeddings into chunks. Préserve cohérence topique. Tools : LangChain SemanticChunker, LlamaIndex SemanticSplitter.
(4) **Document-structured chunking** — exploit document structure (markdown headers, HTML sections, PDF pages, code functions) pour chunks logiques. Markdown : split par # / ## headers. Code : split par function/class.
(5) **Sliding window** — chunks overlap significativement (50% overlap), each query potentially retrieves multiple chunks covering same content.
(6) **Parent document retrieval** — embed small chunks for precision, but retrieve their parent larger chunk for context. Best of both.
(7) **Hierarchical chunking** — multiple levels (summary, sections, paragraphs), retrieval at appropriate granularity.

Chunk size considérations : (1) embedding model context window (most embed 512-8192 tokens max) ; (2) LLM context window allocated to retrieval (8K context = ~5K for retrieved chunks, so chunk size + retrieval k must fit) ; (3) granularity of user queries (very specific Q&A → smaller chunks ; broad summarization → larger chunks).

Overlap : 10-20% typical (50-100 tokens for 512 chunks). Helps preserve context across boundaries.

Best practices : (1) experiment chunk size on representative queries (start 512 tokens, try 256, 1024) ; (2) preserve document structure when possible ; (3) include metadata (source, page, section title) in chunk for traceability ; (4) consider content type (code, prose, tables, structured data have different optimal strategies) ; (5) test recall vs precision trade-off. Compétences AI-102, PMLE.

Préparez vos certifications IT gratuitement