Il y a un an, les modèles d'IA chinois pesaient moins de 2 % du trafic sur OpenRouter, la plus grande place de marché de modèles de langage. En avril 2026, ils en captent plus de 45 %. Ce basculement n'est pas un détail de geek : c'est le signe que l'IA générative échappe peu à peu au duopole américain OpenAI-Anthropic, et que l'argument du prix a fini par l'emporter.
OpenRouter : le basculement qui dit tout
OpenRouter agrège des centaines de modèles et route les requêtes des développeurs vers le moins cher ou le plus performant. C'est un thermomètre fiable de ce que les équipes techniques utilisent vraiment, loin des effets d'annonce.
Le verdict d'avril 2026 est sans appel. Six fournisseurs chinois concentrent l'essentiel du volume hebdomadaire : Xiaomi avec son modèle MiMo-V2-Pro (21,1 % du trafic), Alibaba et Qwen 3.6 Plus (13,9 %), MiniMax (8,1 %), Zhipu rebaptisé Z.ai (5,6 %), DeepSeek (5,6 %) et StepFun (5,3 %).
Additionnez : on dépasse les 45 %. Il y a douze mois, ces mêmes acteurs faisaient moins de 2 %. C'est l'une des bascules les plus rapides jamais observées sur un marché logiciel.
GLM-5 : un modèle de pointe entraîné sans une seule puce Nvidia
Le symbole le plus fort de cette montée en puissance ne vient pas des benchmarks, mais du matériel. Le 11 février 2026, le laboratoire Zhipu AI a publié GLM-5, un modèle de 744 milliards de paramètres (architecture Mixture-of-Experts, 40 à 44 milliards actifs par requête).
La prouesse : chaque paramètre a été entraîné sur un cluster de 100 000 puces Huawei Ascend 910B, gravées en 7 nm par le fondeur chinois SMIC, via le framework MindSpore. Zéro dépendance à Nvidia. C'est le premier modèle de niveau frontière à prouver qu'on peut bâtir une IA compétitive sans matériel américain.
Le contexte rend la chose encore plus parlante : Zhipu figure sur l'Entity List américaine depuis janvier 2025, ce qui lui interdit légalement l'accès aux GPU de data center de Nvidia. Les restrictions à l'export, censées ralentir la Chine, ont surtout accéléré sa quête d'autonomie. GLM-5 performe à quelques points seulement de GPT-5.2 et Claude Opus 4.5 sur les grands benchmarks, et il est publié en open source sous licence MIT.
Le vrai moteur : un prix 5 à 8 fois plus bas
Si les développeurs migrent en masse, c'est d'abord une question de facture. Les chiffres parlent d'eux-mêmes, par million de tokens sur OpenRouter en avril 2026.
Côté chinois : Qwen 3.5 Flash à 0,065 dollar en entrée et 0,26 en sortie ; Step 3.5 Flash à 0,10 / 0,30 ; GLM-5 à 0,80 / 2,56. Côté américain : GPT-5.4 à 2,50 / 15 et Claude Opus 4.6 à 5 / 25.
Concrètement, pour une charge de travail comparable, les modèles chinois coûtent 2,5 à 5 fois moins cher en entrée et 4 à 8 fois moins en sortie. Quand on traite des millions de tokens par jour, l'écart ne se discute pas : il décide du modèle économique d'un produit.
Ce que ça change pour les PME et les développeurs français
Pour un décideur ou un développeur en France, ce basculement a trois conséquences immédiates.
D'abord, le coût d'entrée de l'IA générative s'effondre. Un assistant, un moteur de résumé ou un agent de support qui coûtait une fortune en tokens devient soudain rentable. Des cas d'usage hier inenvisageables passent dans le vert.
Ensuite, l'open source chinois change la donne sur la souveraineté. GLM-5 ou les modèles Qwen sont téléchargeables et auto-hébergeables : on peut les faire tourner sur ses propres serveurs, en Europe, sans envoyer la moindre donnée à un fournisseur tiers. Pour un secteur régulé (santé, juridique, finance), c'est un argument de conformité majeur.
Enfin, la dépendance se déplace mais ne disparaît pas. Troquer une dépendance à OpenAI contre une dépendance à Alibaba ou Zhipu n'est pas neutre : gouvernance des données, pérennité des licences, alignement géopolitique. Le bon réflexe reste l'abstraction — concevoir son produit pour pouvoir changer de modèle sans tout réécrire.
Mon analyse : la commoditisation est actée
Ce que montre le trafic OpenRouter, c'est que le modèle de langage devient une commodité. La performance brute se banalise, les écarts entre le meilleur américain et le meilleur chinois se comptent en points de pourcentage, et le prix devient le critère numéro un pour l'immense majorité des usages.
Je le dis sans triomphalisme : sur beaucoup de tâches réelles — résumé, extraction, classification, génération de code courant — un modèle chinois à 0,10 dollar le million de tokens fait le travail aussi bien qu'un modèle américain dix fois plus cher. Payer le premium ne se justifie plus que sur les tâches de raisonnement les plus exigeantes.
La leçon stratégique est ailleurs. En voulant brider la Chine par les restrictions sur les puces, l'Occident a précipité l'émergence d'une filière matérielle et logicielle entièrement autonome. GLM-5 entraîné sur Huawei Ascend en est la preuve éclatante. La vraie bataille de l'IA ne se joue plus seulement sur les modèles : elle se joue sur le silicium, et la Chine vient de démontrer qu'elle pouvait s'en passer.
J'ai détaillé les chiffres de marché, les benchmarks et les implications pour les équipes techniques dans mon analyse complète sur TECH ACTU — le lien est en commentaire.




