RAG
Le RAG (Retrieval-Augmented Generation, ou « génération augmentée par récupération ») est un pattern d'architecture pour les applications LLM qui consiste, avant de répondre à une question, à aller chercher dans un corp…
Le RAG (Retrieval-Augmented Generation, ou « génération augmentée par récupération ») est un pattern d'architecture pour les applications LLM qui consiste, avant de répondre à une question, à aller chercher dans un corpus de documents les passages pertinents pour ancrer la génération dans des sources fiables.
Un pipeline RAG typique comporte trois étapes : (1) ingestion — découpage des documents en chunks et calcul d'embeddings stockés dans une base vectorielle ; (2) retrieval — pour chaque question, recherche des chunks les plus proches sémantiquement ; (3) generation — le LLM répond à la question avec les chunks fournis dans son contexte.
Le RAG est la réponse standard au problème des hallucinations et de la connaissance datée des LLM. Il est plus simple à mettre à jour qu'un fine-tuning.
