IA & Machine Learning Article original TECH ACTU

GPT-5.5 Instant : OpenAI refait le match sur les hallucinations et expédie Codex sur mobile

Jean-Paul Lesein 4 min de lecture 52 vues
GPT-5.5 Instant : OpenAI refait le match sur les hallucinations et expédie Codex sur mobile

Le 5 mai 2026, OpenAI déploie GPT-5.5 Instant comme nouveau modèle par défaut de ChatGPT. Réduction des hallucinations de 52,5 % sur médecine, droit et finance. AIME 2025 : 81,2 vs 65,4. ARC-AGI-2 : 85 %. Le 14 mai, Codex arrive sur iOS/Android pour 4M d utilisateurs : le téléphone devient panneau de contrôle pour les agents tournant sur desktop.

Le 5 mai 2026, OpenAI a remplacé GPT-5.3 Instant par GPT-5.5 Instant comme modèle par défaut de ChatGPT pour tous les utilisateurs — y compris les gratuits. Neuf jours plus tard, Codex débarquait sur iOS et Android. Deux annonces, un même message : OpenAI veut être le modèle que vous utilisez en production, sur votre bureau et dans votre poche, avec des réponses que vous pouvez enfin faire confiance.

52,5 % d'hallucinations en moins : le chiffre qui change tout

OpenAI est direct dans son annonce : GPT-5.5 Instant produit 52,5 % d'affirmations hallucinées en moins que GPT-5.3 Instant sur des prompts à fort enjeu — médecine, droit, finance. Sur les conversations marquées par les utilisateurs pour erreurs factuelles, la réduction atteint 37,3 %.

Ces chiffres méritent un arrêt. L'hallucination a été pendant trois ans le talon d'Achille de l'IA générative dans les contextes professionnels. Pas à cause du risque hypothétique de se faire corriger, mais du coût cognitif réel de devoir systématiquement vérifier les outputs. Passer de « toujours vérifier » à « vérifier quand c'est critique » change fondamentalement le ratio valeur/friction du modèle.

Sur les benchmarks quantitatifs, GPT-5.5 Instant marque des progrès nets : 81,2 sur AIME 2025 (contre 65,4 pour son prédécesseur), 85 % sur ARC-AGI-2 (contre 75,8 %), et un saut particulièrement impressionnant sur la récupération long-contexte — 74 % sur MRCR v2 contre 32,2 % pour GPT-5.3 Instant. Ce dernier chiffre est le plus significatif pour les workflows agentiques qui traitent de longs documents.

Ce qui a changé dans la mécanique du modèle

OpenAI décrit GPT-5.5 Instant comme un modèle entraîné avec une mémoire plus profonde et une meilleure personnalisation — le modèle tire davantage parti de l'historique de conversation pour adapter ses réponses. En pratique, ça signifie moins de reformulations répétées et un suivi de contexte plus cohérent sur les échanges longs.

L'amélioration sur les domaines sensibles (droit, médecine, finance) n'est pas fortuite. OpenAI a explicitement entraîné ce modèle à identifier ses propres zones d'incertitude et à les signaler plutôt qu'à les combler avec des extrapolations confiantes. C'est une décision d'alignement autant qu'une décision technique : un modèle qui dit « je ne suis pas certain » est plus fiable qu'un modèle qui invente.

Codex sur mobile : le développeur en mode asynchrone

Le 14 mai, OpenAI a lancé Codex dans l'app ChatGPT sur iOS et Android, en preview sur tous les plans — y compris gratuit. Plus de 4 millions de personnes utilisent Codex chaque semaine, et cette mise sur mobile répond à une réalité concrète : les agents de code tournent souvent pendant des heures.

L'architecture est intelligente. Codex continue de s'exécuter dans l'environnement où il a été lancé (machine locale, devbox, serveur distant) — le téléphone n'est qu'un panneau de contrôle. Depuis l'app mobile, vous pouvez consulter l'état de vos threads, approuver des commandes, changer de modèle ou démarrer de nouvelles tâches. Les fichiers, les credentials et les permissions restent sur la machine d'origine.

C'est le pattern « async agent supervisor » qui prend forme dans un produit grand public. Vous lancez une tâche de refactoring sur votre laptop, vous prenez le métro, vous recevez une notification : Codex demande confirmation avant de modifier un fichier critique. Vous approuvez depuis votre téléphone, le travail continue. Ce type de workflow était réservé à des pipelines DevOps sophistiqués. Il devient accessible en quelques taps.

Stratégie OpenAI : fiabilité + ubiquité

Ces deux sorties en moins de deux semaines ne sont pas des coïncidences de calendrier. OpenAI envoie un signal clair : l'axe de différenciation n'est plus la performance brute sur les benchmarks — tous les grands labos se rejoignent sur ce terrain. L'axe devient la confiance opérationnelle et l'intégration dans les workflows réels.

La bataille contre les hallucinations répond aux retours des équipes enterprise qui ont déployé des LLMs en production et se sont heurtées à des erreurs factuelles coûteuses. La version mobile de Codex répond aux développeurs qui ne veulent pas être collés à leur bureau pour superviser leurs agents.

Ce positionnement rappelle l'évolution des bases de données cloud entre 2012 et 2018 : ce n'est pas le moteur de requêtes le plus performant qui a gagné les déploiements de production, c'est celui qui offrait le meilleur ratio performance/fiabilité/observabilité. OpenAI joue exactement cette carte.

Mon analyse : vers une IA de prod, enfin

Réduire les hallucinations de 52 % n'est pas un chiffre marketing — c'est un seuil fonctionnel. En dessous d'un certain taux d'erreur, un outil devient fiable pour des décisions à faible enjeu. En dessous d'un autre seuil, il devient utilisable pour des décisions à moyen enjeu. GPT-5.5 Instant franchit probablement le premier seuil pour des domaines comme le droit et la finance, ce qui va ouvrir des cas d'usage qui étaient jusqu'ici bloqués par le risque de compliance.

Pour les équipes qui automatisent des workflows avec des LLMs, la conséquence pratique est immédiate : il faut réévaluer les pipelines de vérification humaine que vous avez construits autour des erreurs de GPT-5.3. Certains de ces checks peuvent être allégés. D'autres peuvent être automatisés. Le coût opérationnel de la supervision humaine sur les outputs LLM vient de baisser.

Quant à Codex mobile, j'y vois surtout une validation du modèle agentique asynchrone. Le fait qu'OpenAI investisse dans une interface mobile de supervision plutôt que dans une interface d'interaction directe dit quelque chose : les agents longs, autonomes, qui tournent en arrière-plan, sont devenus le cas d'usage principal — pas le chat en temps réel. J'ai détaillé comment structurer ces workflows agentiques dans mon dernier article sur TECH ACTU — le lien est en commentaire.

Partager cet article

À lire aussi en IA & Machine Learning