23 % de reussite il y a six mois. 98 % aujourd'hui. C'est le bond de performance de Google DeepMind sur un test que la plupart des equipes de robotique industrielle jugent encore non resolu : lire une jauge de pression analogique avec un robot autonome. Gemini Robotics-ER 1.6, disponible depuis le 15 avril 2026 via l'API Gemini et Google AI Studio, n'est pas une mise a jour cosmetique. C'est une rupture sur les cas d'usage les plus concrets de la robotique de terrain.
De 23 % a 98 % : le benchmark qui dit tout
Pour comprendre pourquoi ce modele fait du bruit, il faut regarder la progression des chiffres sur la tache de lecture d'instruments. Gemini Robotics-ER 1.5 atteignait 23 % de succes sur ce benchmark. Gemini 3.0 Flash montait a 67 %. ER 1.6 seul atteint 86 %. Avec la couche agentic vision activee, le modele monte a 93 a 98 % selon les sources.
Ces chiffres mesurent la capacite d'un robot a lire une vraie jauge de pression dans une vraie usine, a interpreter la position d'une aiguille sur un cadran analogique, a estimer le niveau d'un liquide dans un sight glass avec distorsion de perspective — et a donner une reponse fiable pour declencher une action ou une alerte.
Ce que lire un instrument veut vraiment dire pour un robot
La lecture d'instrument parait simple. Elle ne l'est pas. Gemini Robotics-ER 1.6 doit gerer simultanement plusieurs couches de complexite visuelle : identifier la position d'une aiguille sur un cadran, reperer les graduations, lire l'unite de mesure en texte, et parfois combiner plusieurs aiguilles indiquant des ordres de grandeur differents.
Pour les sight glasses — ces tubes transparents qui indiquent le niveau de liquide dans les cuves industrielles — la difficulte est encore plus grande. Le modele doit estimer le remplissage en tenant compte de la distorsion optique de la camera, de la refraction du liquide et de l'angle de prise de vue.
La solution de DeepMind repose sur un visual scratchpad : une etape intermediaire ou le modele annote mentalement l'image — pointant les graduations, la position de l'aiguille, les reperes numeriques — avant de produire sa reponse finale. Ca fonctionne comme un raisonnement par chaine, applique a la perception visuelle spatiale.
Boston Dynamics, Spot et le cas industriel concret
Ce cas d'usage n'est pas sorti d'un laboratoire academique. Il a emerge d'une collaboration directe avec Boston Dynamics. Le chien robot Spot effectue deja des rondes d'inspection dans des installations industrielles — raffineries, usines chimiques, centrales. Le probleme : Spot voyait les instruments, mais ne pouvait pas les lire de facon fiable.
Avec Gemini Robotics-ER 1.6, Spot peut desormais lire des jauges de pression circulaires, des indicateurs de niveau verticaux et des afficheurs numeriques. L'objectif a terme : des rondes d'inspection entierement autonomes, sans operateur humain pour interpreter les releves. Pour les installations ou l'acces est dangereux ou les rondes trop frequentes pour etre rentables avec du personnel, c'est un changement de paradigme operationnel.
Raisonnement, outils natifs et auto-evaluation
La lecture d'instruments est le cas d'usage le plus spectaculaire, mais Gemini Robotics-ER 1.6 couvre un spectre plus large. Le modele est concu pour agir comme le cerveau haut niveau d'un robot — celui qui decompose une tache complexe en sous-etapes, decide quand retenter une action et quand l'abandonner, et evalue lui-meme si l'objectif a ete atteint.
Trois capacites meritent d'etre soulignees. La detection de succes amelioree : le modele juge lui-meme si une manipulation a reussi sans validation externe. Le comptage et la localisation d'objets : identifier et positionner precisement des objets dans l'espace avec moins d'erreurs. Et l'appel d'outils natif : ER 1.6 peut appeler Google Search en cours de tache — une capacite que les systemes embarques fermes ne permettront jamais.
Securite : le modele robotique le plus safe a ce jour
DeepMind revendique que Gemini Robotics-ER 1.6 est le modele robotique le plus sur de la gamme. Sur les tests de raisonnement spatial adversarial — des scenarios concus pour pousser le modele a violer les politiques de securite Gemini — ER 1.6 surpasse toutes les generations precedentes.
Les robots industriels operent dans des environnements ou un comportement inattendu peut avoir des consequences physiques directes. La robustesse aux attaques adversariales dans le domaine visuel est un prerequis pour tout deploiement serieux en conditions reelles.
Mon analyse : Gemini comme OS des robots industriels
Ce que Google DeepMind construit avec la gamme Gemini Robotics, ce n'est pas un modele de plus. C'est une tentative de se positionner comme la couche d'intelligence standard des robots industriels — ce qu'Android est pour les smartphones, mais pour les equipements physiques.
Le choix des partenariats est eloquent. Boston Dynamics avec Spot pour l'inspection industrielle. La progression de 23 % a 98 % en deux versions. La disponibilite via API standardisee depuis le 15 avril. Ce sont les signaux d'une entreprise qui passe du mode recherche au mode deploiement a l'echelle.
Le concurrent direct, c'est l'approche integree verticalement de Tesla avec Optimus ou de Figure AI. Google joue un jeu different : fournir le cerveau a n'importe quel fabricant de robot, comme ils fournissent deja l'IA a n'importe quel developpeur via l'API. Si cette strategie prend, les OEM de robots n'auront pas plus le choix que les fabricants de telephones face a Android.
Pour les equipes qui developpent des applications de robotique, d'inspection industrielle ou de vision par ordinateur : Gemini Robotics-ER 1.6 est disponible des maintenant sur l'API Gemini. J'ai detaille les cas d'usage concrets, les benchmarks complets et les patterns d'integration dans mon article complet sur TECH ACTU — le lien est en commentaire.




