IA multimodale

IA capable de traiter et combiner plusieurs types de données : texte, image, audio et vidéo.

Un modèle multimodal comprend et génère plusieurs modalités à la fois — par exemple décrire une image, répondre à une question sur une vidéo ou générer du son. GPT-4o, Claude et Gemini sont multimodaux.

Termes associés

IA générativeCatégorie d'IA capable de créer du contenu original : texte, images, musique, vidéo ou code, à partir de modèles entraînés.LLM (Large Language Model)Modèle de langage de grande taille entraîné sur d'immenses corpus de texte, capable de comprendre et générer du langage naturel.Modèle de diffusionType de modèle génératif qui crée des images en partant d'un bruit aléatoire qu'il « débruite » progressivement.Vision par ordinateurDomaine de l'IA qui permet aux machines d'analyser et d'interpréter des images et des vidéos.

Retour au glossaire