Introduit en 2017 par Google (« Attention is All You Need »), le Transformer traite les séquences en parallèle grâce à l'auto-attention, ce qui a rendu possible l'entraînement de modèles à des milliards de paramètres. C'est l'architecture sous-jacente de GPT, Claude, Gemini ou Llama.
Transformer (IA)
Architecture de réseau de neurones, fondée sur le mécanisme d'attention, qui est à la base des grands modèles de langage modernes.
Termes associés
Deep LearningSous-ensemble du machine learning utilisant des réseaux de neurones artificiels à plusieurs couches pour modéliser des abstractions complexes.IA générativeCatégorie d'IA capable de créer du contenu original : texte, images, musique, vidéo ou code, à partir de modèles entraînés.LLM (Large Language Model)Modèle de langage de grande taille entraîné sur d'immenses corpus de texte, capable de comprendre et générer du langage naturel.Réseau de neuronesModèle de calcul inspiré du cerveau, composé de couches de « neurones » artificiels qui apprennent en ajustant des poids.