Embeddings
Un embedding est une représentation numérique (un vecteur de plusieurs centaines à quelques milliers de dimensions) d'un contenu — texte, image, audio — calculée par un modèle de machine learning de telle manière que de…
Un embedding est une représentation numérique (un vecteur de plusieurs centaines à quelques milliers de dimensions) d'un contenu — texte, image, audio — calculée par un modèle de machine learning de telle manière que des contenus sémantiquement proches produisent des vecteurs proches dans cet espace.
Les embeddings sont la brique fondamentale de la recherche sémantique, du clustering, de la classification et surtout du RAG (Retrieval-Augmented Generation), où ils permettent de retrouver les passages d'un corpus pertinents pour répondre à une question.
Ils sont stockés et interrogés efficacement dans des bases vectorielles (Pinecone, Qdrant, Weaviate, pgvector). Les principaux modèles d'embeddings en 2026 sont fournis par OpenAI, Voyage, Cohere, Mistral et les modèles open source comme BGE et E5.
