Google avait promis son nouveau modèle phare pour juin. Nous sommes le 1er juillet, et Gemini 3.5 Pro n'est toujours pas là. Le report n'a rien d'anodin : il en dit long sur la pression qui pèse sur Google DeepMind, et sur la façon dont vous devriez, dès aujourd'hui, choisir votre modèle d'IA.
Ce qui était promis, et ce qui a glissé
Lors de la conférence Google I/O du 19 mai 2026, Google DeepMind a dévoilé Gemini 3.5 Pro, présenté comme le nouveau vaisseau amiral de la famille et le remplaçant du palier « Ultra ». La disponibilité générale (GA) était annoncée pour juin 2026.
Six semaines plus tard, le modèle est toujours en preview limitée, réservé à une poignée de clients entreprise sur Vertex AI. Google a officiellement repoussé la GA à juillet 2026, en invoquant des « raffinements de qualité » après les premiers retours des testeurs.
Sundar Pichai a résumé la situation d'une formule courte lors d'une prise de parole récente : « donnez-nous jusqu'au mois prochain ». C'est le second raté de calendrier de Google sur l'IA cette année, après un précédent report sur la génération Ultra.
Ce que Gemini 3.5 Pro promet vraiment
Sur le papier, l'attente est justifiée par des ambitions élevées. La fiche technique met en avant deux arguments majeurs.
D'abord, une fenêtre de contexte de 2 millions de tokens. C'est le double de ce que propose aujourd'hui la plupart des concurrents frontière, Claude Opus 4.8 compris. Concrètement, on parle de la capacité d'avaler une base de code entière, des centaines de pages de contrats ou des mois d'historique de tickets en une seule requête, sans découpage.
Ensuite, un mode de raisonnement baptisé Deep Think, l'équivalent Google du « raisonnement étendu » — le modèle prend le temps de dérouler plusieurs étapes de réflexion avant de répondre, au prix de quelques secondes de latence, pour les problèmes complexes.
Côté tarif, rien n'est officiel, mais les estimations convergent autour de 15 $ par million de tokens en entrée et 60 $ en sortie — soit environ dix fois le prix de la version Flash. C'est le ticket d'entrée classique d'un modèle « Pro ».
Flash est déjà là, et il n'est pas ridicule
Pendant que Pro se fait attendre, Gemini 3.5 Flash est disponible depuis le 19 mai. Et il vaut mieux qu'un simple lot de consolation.
Sur plusieurs benchmarks agentiques et de code, Flash dépasse déjà l'ancien Gemini 3.1 Pro : 76,2 % sur Terminal-Bench 2.1 (contre 70,3 %), 83,6 % sur MCP Atlas (contre 78,2 %), et 57,9 % sur Finance Agent v2 (contre 43,0 %). Son point faible reste le raisonnement difficile — précisément le terrain que Pro doit reconquérir.
À environ 1,50 $ / 9 $ par million de tokens, Flash occupe le créneau du « bon rapport performance-prix pour l'agentique et le code ». Pour une majorité de cas d'usage réels, il suffit largement.
Le contexte tendu derrière le report
Un report de quelques semaines ne fait pas trembler une entreprise de la taille de Google. Mais il tombe dans une période nerveuse. Entre le 21 et le 27 juin, plusieurs chercheurs seniors de Google DeepMind ont, selon la presse spécialisée, rejoint Anthropic — dernier épisode d'un mouvement de talents qui traverse tout le secteur depuis 2025.
Je reste prudent sur l'interprétation : ces départs, aux motifs non confirmés officiellement, ne suffisent pas à expliquer un report technique. Mais ils rappellent une réalité — la course frontière se joue autant sur la rétention des cerveaux que sur la puissance de calcul.
Ce qu'il faut retenir, c'est la discipline affichée : Google préfère décaler une sortie plutôt que livrer un modèle en dessous de ses standards. Après des années de lancements précipités dans l'industrie, c'est presque rassurant.
Mon analyse : ne construisez pas sur un modèle qui n'existe pas encore
La leçon la plus utile de cet épisode n'est pas technique, elle est stratégique. Un modèle annoncé n'est pas un modèle disponible. Tant qu'il n'est pas en GA, avec un SLA et une tarification ferme, il n'a pas sa place dans une feuille de route de production.
Mon conseil pour une équipe tech ou une PME : si votre cas d'usage tourne aujourd'hui sur du code, de l'agentique ou du traitement documentaire courant, construisez sur Flash maintenant. Il est là, il est éprouvé, et il coûte dix fois moins cher. Gardez Pro et ses 2 millions de tokens pour les charges qui l'exigent vraiment — l'analyse de corpus massifs, le raisonnement long — le jour où il sera réellement livré.
La vraie force des 2 millions de tokens, ce n'est pas de tout envoyer d'un coup « parce qu'on peut ». C'est de simplifier les architectures qui, aujourd'hui, jonglent avec du découpage et des bases vectorielles pour contourner une limite de contexte. Le jour où cette limite saute pour de bon, certaines chaînes techniques deviennent inutiles. Ça, ça vaudra le coup d'attendre juillet.
En attendant, une règle simple : jugez les modèles sur ce qu'ils font en production, jamais sur ce qu'ils promettent sur une slide.




