Une image, dix secondes de vidéo, un extrait audio et un paragraphe de texte, tous projetés dans le même espace mathématique. C'est la promesse de Gemini Embedding 2, que Google vient de pousser en disponibilité générale via l'API Gemini et Vertex AI. Le premier modèle d'embedding nativement multimodal de Google n'est pas un gadget de démo : il s'attaque au talon d'Achille de presque tous les moteurs de recherche et systèmes RAG en production aujourd'hui.
Un embedding, pourquoi c'est le cœur du réacteur
Petit rappel pour ceux qui ne baignent pas dedans toute la journée. Un embedding, c'est la traduction d'un contenu — un texte, une image, un son — en une liste de nombres, un vecteur. Deux contenus qui parlent de la même chose se retrouvent proches dans cet espace de nombres. C'est ce qui fait tourner la recherche sémantique, les recommandations, la détection de doublons et surtout les fameux systèmes RAG qui alimentent les chatbots d'entreprise avec vos propres documents.
Le problème, jusqu'ici, c'est que chaque modalité avait son propre modèle, donc son propre espace vectoriel. Le texte d'un côté, les images de l'autre, l'audio encore ailleurs. Pour faire dialoguer tout ça, on passait par des rustines : transcrire l'audio en texte, décrire une image avec des mots-clés, extraire le contenu d'un PDF. Autant d'étapes intermédiaires qui perdent de l'information et accumulent les erreurs.
Cinq modalités, un seul espace à 3 072 dimensions
Gemini Embedding 2 fait sauter cette frontière. Le modèle projette texte, images, vidéo, audio et documents dans un unique espace vectoriel à 3 072 dimensions. Concrètement, vous pouvez chercher une vidéo à partir d'une phrase, retrouver un passage audio à partir d'une image, ou interroger une base mixte sans vous soucier du format d'origine.
Les capacités d'entrée sont sérieuses : jusqu'à 8 192 tokens de texte, 6 images par requête (PNG, JPEG), 120 secondes de vidéo (MP4, MOV) et de l'audio ingéré nativement, sans transcription préalable. Mieux : le modèle accepte des entrées entrelacées. Vous lui passez une image accompagnée de son texte dans la même requête, et il capture la relation entre les deux au lieu de les traiter séparément.
C'est précisément sur la vidéo et l'audio que l'écart se creuse. En contournant le détour par la transcription, Gemini Embedding 2 évite la dégradation de performance typique des pipelines texte. Sur les tâches de recherche vidéo-vers-texte et texte-vers-vidéo, Google revendique un écart mesurable face aux modèles concurrents, en cartographiant correctement le mouvement et la dimension temporelle.
Les chiffres qui comptent
Côté benchmarks, le modèle s'installe en tête. Il atteint 68,32 sur le classement MTEB English, en position de leader sur le texte pur, 69,9 en MTEB multilingue et 84,0 en MTEB Code — un score qui parlera aux équipes qui font de la recherche sémantique dans des bases de code. Sur le multimodal, on relève 62,9 R@1 sur MSCOCO (image-texte) et 68,8 NDCG@10 sur Vatex (vidéo).
Ces chiffres ne sont pas qu'une affaire de fierté de leaderboard. Ils signifient qu'on peut remplacer trois ou quatre modèles spécialisés par un seul, tout en gagnant en qualité sur les modalités les plus difficiles. Pour une équipe technique, c'est moins d'infrastructure à maintenir, moins de pipelines à déboguer, et une cohérence sémantique entre tous les types de contenu.
Matryoshka : le détail qui change la facture
Le point que je trouve le plus malin est aussi le plus discret. Gemini Embedding 2 intègre le Matryoshka Representation Learning (MRL). L'idée, comme les poupées russes : un seul embedding contient plusieurs niveaux de détail emboîtés, et vous pouvez le tronquer sans le recalculer.
Google recommande 3 072, 1 536 ou 768 dimensions, et désigne explicitement 768 comme le point d'équilibre : une qualité quasi maximale pour environ un quart de l'empreinte de stockage des 3 072 dimensions. Quand on sait que le coût d'une base vectorielle explose avec le nombre de dimensions multiplié par le nombre de documents, diviser le stockage par quatre en gardant 95 % de la qualité, ce n'est pas un détail technique. C'est une ligne de facture cloud qui fond.
Mon analyse : la fin des pipelines en sparadrap
Ce qui me frappe avec Gemini Embedding 2, c'est qu'il attaque un problème que tout le monde subissait sans vraiment le nommer. On a passé deux ans à empiler des couches de transcription, d'OCR et de description automatique pour faire entrer des contenus non-textuels dans des systèmes pensés pour le texte. Chacune de ces couches était une source de bugs, de latence et de perte d'information.
Un modèle qui ingère l'audio et la vidéo directement, sans les transformer en mots d'abord, c'est un changement de paradigme pour quiconque construit de la recherche ou du RAG sur des données réelles — qui sont rarement du texte propre. Pensez à un service client qui indexe des appels enregistrés, à une plateforme e-learning qui rend ses vidéos cherchables, à un cabinet qui interroge des PDF mêlant schémas et tableaux.
Le contexte stratégique compte aussi. En verrouillant la brique embedding dans son écosystème Gemini et Vertex, Google ne vise pas le buzz grand public — il vise les fondations sur lesquelles les entreprises bâtissent leurs applications IA. C'est moins spectaculaire qu'un nouveau chatbot, mais bien plus structurant. Celui qui détient la couche d'embedding détient la porte d'entrée de toutes les données.
Reste une vigilance, la même que pour tout service managé : la dépendance. Confier ses embeddings à une API propriétaire, c'est confier la représentation même de ses données à un tiers, avec le coût de migration que cela implique le jour où l'on voudra changer. À chacun de peser ce que la simplicité d'aujourd'hui coûtera en liberté demain.
J'ai détaillé les capacités précises par modalité, les recommandations de dimensions selon les cas d'usage et ce que ça change concrètement pour vos projets RAG dans mon analyse complète sur TECH ACTU — le lien est en commentaire.




