Le RAG (Retrieval-Augmented Generation) est une architecture qui améliore les réponses des LLM en les combinant avec une recherche dans une base de connaissances externe. Au lieu de se fier uniquement à sa mémoire d'entraînement, le modèle consulte des documents pertinents avant de répondre.
Le processus se déroule en deux étapes : d'abord la récupération (retrieval) de documents pertinents via des embeddings vectoriels, puis la génération d'une réponse contextuelle par le LLM.
Le RAG est particulièrement utile en entreprise pour interroger des bases documentaires internes, des FAQ ou des bases de connaissances techniques.