Depuis ChatGPT, tous les grands modèles de langage fonctionnent de la même façon : ils écrivent un mot, puis le suivant, puis le suivant, à la chaîne. Le 10 juin 2026, Google DeepMind a publié DiffusionGemma, un modèle open-weights de 26 milliards de paramètres qui casse cette mécanique : il ne génère plus le texte mot après mot, mais par blocs entiers, en parallèle. Résultat annoncé : jusqu'à 4 fois plus vite sur du matériel grand public. Et au-delà du chiffre, c'est une question de fond qui se pose : et si la façon dont les IA écrivent depuis trois ans n'était pas la seule possible ?
Diffusion contre autorégression : deux façons d'écrire
Pour comprendre la rupture, il faut un mot sur le fonctionnement habituel. Les modèles comme Gemini, GPT ou Claude sont autorégressifs : ils prédisent un token (un morceau de mot) à la fois, en s'appuyant sur tout ce qui précède. C'est séquentiel par nature — impossible d'écrire le dixième mot avant d'avoir écrit le neuvième.
La diffusion, elle, vient du monde de l'image. C'est la technique derrière Stable Diffusion ou Imagen : on part d'un bruit aléatoire et on le « débruite » progressivement jusqu'à obtenir un résultat cohérent. DiffusionGemma applique ce principe au texte. Plutôt que de dérouler les mots un par un, il raffine un bloc entier de texte en plusieurs passes simultanées.
Concrètement, là où un modèle classique produit un token par étape, DiffusionGemma en génère 256 en parallèle à chaque passage. C'est tout l'intérêt : on échange une longue file d'attente séquentielle contre quelques étapes massivement parallèles, ce que les GPU adorent.
Les chiffres : 1 000 tokens/seconde sur un seul GPU
L'argument de vente est la vitesse. DeepMind annonce plus de 1 000 tokens par seconde sur un seul GPU H100, soit environ 4 fois plus rapide qu'un modèle autorégressif comparable sur le même matériel. Pour des cas d'usage où la latence est critique — assistants en temps réel, génération de code à la volée, traitement de gros volumes — c'est loin d'être anecdotique.
Mais il y a un revers, et Google ne le cache pas. Sur les benchmarks de référence comme MMLU (connaissances générales) et les tests de code, DiffusionGemma reste en dessous de Gemma 4, le modèle autorégressif classique de la maison. Autrement dit : on gagne en vitesse, on perd un peu en qualité brute.
Ce compromis est honnête, et il est typique des technologies en rupture. La diffusion appliquée au texte est encore jeune. La vraie question n'est pas « est-ce meilleur aujourd'hui ? » mais « jusqu'où cette approche peut-elle progresser ? ». Et c'est précisément ce que ce modèle est venu tester en grandeur nature.
Open-weights et Apache 2.0 : la stratégie Gemma continue
Fidèle à la ligne de la famille Gemma, Google publie DiffusionGemma en open-weights sous licence Apache 2.0. Traduction : n'importe qui peut le télécharger, l'utiliser commercialement, le modifier et le redistribuer, sans payer de licence ni demander d'autorisation.
Le modèle est disponible immédiatement sur Hugging Face, Kaggle et le Model Garden de Vertex AI. Pour les développeurs et les PME, cette accessibilité change la donne : on peut faire tourner DiffusionGemma sur sa propre infrastructure, garder ses données en interne, et expérimenter sans engager de budget cloud.
Ce n'est pas de la philanthropie. En diffusant gratuitement une architecture expérimentale, Google fait travailler la communauté open source à sa place : chercheurs, startups et bidouilleurs vont éprouver la diffusion textuelle, remonter des cas d'usage et des optimisations. C'est une manière redoutablement efficace d'accélérer une R&D risquée tout en plaçant Google au centre du jeu.
Mon analyse : un pari sur l'après-autorégression
Ce qui m'intéresse ici, ce n'est pas tant le « 4x plus rapide » que le signal stratégique. Depuis 2022, toute l'industrie de l'IA générative repose sur un seul paradigme : l'autorégression. Tout l'écosystème — matériel, frameworks, techniques d'optimisation — a été taillé pour ça. Remettre en cause cette fondation, c'est rare, et ça vient rarement d'un acteur de premier plan.
En sortant DiffusionGemma, Google ne dit pas « voici notre meilleur modèle ». Il dit « et si on changeait de route ? ». La diffusion promet une chose que l'autorégression ne pourra jamais offrir nativement : la génération parallèle, donc une vitesse qui ne dépend plus linéairement de la longueur du texte. Si la qualité rattrape son retard, c'est tout l'équilibre coût/latence de l'IA générative qui bascule.
Je reste prudent : à ce stade, c'est un modèle de recherche, pas un remplaçant de Gemini ou de Gemma 4 en production. Mais l'histoire récente de l'IA nous a appris une chose — les approches qu'on juge « prometteuses mais pas encore au niveau » mettent parfois douze mois à devenir le nouveau standard. DiffusionGemma vaut le coup d'œil, pas pour ce qu'il fait aujourd'hui, mais pour la direction qu'il trace.
J'ai détaillé l'architecture, les chiffres de performance et ce que la diffusion textuelle pourrait changer pour les développeurs dans mon analyse complète sur TECH ACTU — le lien est en commentaire.




