DeepSeek V4 : 1 000 milliards de paramètres sans NVIDIA

Pendant que la Silicon Valley surveille ses benchmarks, Hangzhou a construit quelque chose d’autre. DeepSeek V4, dont le lancement est attendu dans les prochaines semaines selon Reuters, n’est pas seulement le successeur de V3. C’est la première IA de niveau frontier entraînée intégralement sans GPU NVIDIA — sur des puces chinoises Huawei Ascend. Un fait qui aurait semblé improbable il y a douze mois. Il ne l’est plus.

L’industrie mondiale retient son souffle. Alibaba, ByteDance et Tencent ont passé des commandes massives de puces Huawei Ascend 950PR en anticipation du lancement. Les prix de ces puces ont bondi de 20 % en quelques semaines. Ce n’est pas une rumeur de couloir tech — c’est un signal de marché concret.

Architecture MoE : la force cachée de V4

1 000 milliards de paramètres. Le chiffre fait son effet. Mais il masque la vraie intelligence technique de DeepSeek V4 : son architecture Mixture-of-Experts (MoE). Sur ces mille milliards de paramètres, seuls 37 milliards s’activent par inférence. Le modèle se comporte donc comme un 37B en pratique — rapide, économique — tout en ayant accès à la richesse d’un trillion de paramètres en réserve.

C’est exactement ce que DeepSeek avait déjà fait avec V3 : maximiser l’efficacité par conception, pas par brute force. V4 pousse ce principe encore plus loin — plus du double de l’échelle de V3 — tout en maîtrisant les coûts d’inférence. À 0,30 $ par million de tokens, c’est agressivement compétitif face aux modèles occidentaux.

La licence prévue est Apache 2.0 — usage commercial libre, modifications autorisées. C’est une carte maîtresse pour l’adoption mondiale, notamment en Europe où les équipes tech cherchent des alternatives aux modèles propriétaires.

Engram : la mémoire qui change le jeu

Au-delà de l’architecture MoE, DeepSeek V4 introduit une nouveauté qui mérite l’attention : Engram, une architecture de mémoire conditionnelle qui porte le contexte supporté à 1 million de tokens.

Ce qui distingue Engram des approches classiques, c’est sa précision : 97 % sur le test Needle-in-a-Haystack, contre 84,2 % avec l’attention standard. Autrement dit, le modèle retrouve une information précise enfouie dans un million de tokens avec une fiabilité quasi-parfaite. Pour les cas d’usage enterprise — analyse de contrats longs, bases de code entières, documentation technique volumineuse — c’est un changement de dimension réel.

Les benchmarks globaux sont tout aussi solides : 90 % sur HumanEval en code, 80 %+ sur SWE-bench Verified — un score qui égalerait ou dépasserait les meilleurs modèles d’Anthropic selon les données internes de DeepSeek. Ces chiffres restent à confirmer par des évaluations tierces indépendantes, mais la trajectoire est claire.

Huawei Ascend : la rupture avec CUDA

C’est probablement l’aspect le plus stratégiquement significatif de V4. DeepSeek a entraîné ce modèle intégralement sur des puces Huawei Ascend 910B et des accélérateurs Cambricon MLU — sans aucune intervention de NVIDIA. Première IA de cette envergure à accomplir cela.

Huawei fournit deux couches matérielles : l’Ascend 910C (processus SMIC 7nm) comme base de calcul, et l’Atlas 350 avec l’Ascend 950PR pour les inférences. Ce dernier affiche 2,8 fois les performances de l’H20 (la puce NVIDIA autorisée à l’export en Chine) selon Huawei. Et Huawei prévoit de produire 600 000 Ascend 910C en 2026 — le double de 2025.

L’enjeu géopolitique est direct. Les restrictions américaines à l’export de puces NVIDIA avancées visaient à ralentir le développement de l’IA chinoise. La réponse de DeepSeek et Huawei est pragmatique : si vous bloquez les puces, on construit les nôtres — et on optimise les modèles pour elles. Si DeepSeek stabilise sa stack logicielle sur Ascend dans les 12 à 24 prochains mois, son pipeline de développement pourrait devenir entièrement indépendant de CUDA.

Ce que ça change concrètement pour les développeurs

V4 sera multimodal natif — texte, images, vidéo intégrés dès le pré-entraînement, pas collés en post-processing. Pour les équipes qui construisent des applications IA, c’est une interface unifiée au lieu de plusieurs modèles spécialisés à orchestrer.

L’aspect qui m’intéresse le plus : V4 peut tourner en local. En version quantifiée INT8, il tourne sur deux RTX 4090. En INT4, sur une seule RTX 5090. Pour les équipes qui ne veulent pas envoyer leurs données vers des APIs cloud — données sensibles, contraintes RGPD, souveraineté — c’est une option sérieuse. Un modèle de 1 000 milliards de paramètres déployable sur du matériel grand public, c’était inimaginable il y a deux ans.

La V4 Lite (200 milliards de paramètres) a brièvement fait une apparition sur le site de DeepSeek le 9 mars avant d’être retirée — probablement une mise en ligne anticipée. Elle servira vraisemblablement d’alternative plus légère pour les déploiements contraints en ressources.

La stratégie chinoise vue de loin

Pour comprendre pourquoi V4 n’est pas un événement isolé, il faut zoomer sur l’écosystème. DeepSeek V4, Qwen 3.5 (Alibaba), GLM-5 (Zhipu AI) : trois modèles majeurs à paraître en 2026, tous open source, tous entraînés ou optimisés sur du matériel chinois. La stratégie est cohérente et massive.

Ce qui distingue fondamentalement l’approche chinoise des géants américains en 2026 : le choix de l’open source comme levier d’adoption mondiale. Pendant qu’OpenAI et Anthropic protègent leurs poids, DeepSeek libère les siens sous Apache 2.0. C’est un pari sur le réseau — chaque développeur qui adopte DeepSeek, l’intègre dans son stack, publie des fine-tunes ou des adaptations, devient un ambassadeur involontaire de la technologie.

La Chine ne combat pas la Silicon Valley sur ses propres termes. Elle change les règles du jeu.

Mon analyse : un test grandeur nature

Ce qui se joue avec DeepSeek V4 dépasse largement les benchmarks. C’est un test en conditions réelles de la thèse suivante : est-il possible de construire une IA de niveau mondial sans dépendre de l’infrastructure américaine ?

Si V4 tient ses promesses de performance et de stabilité en production — et les signaux préliminaires vont dans ce sens — la réponse sera oui. Et cette réponse aura des implications profondes pour la géopolitique technologique des cinq prochaines années.

Pour les équipes techniques françaises et européennes : les modèles DeepSeek sont disponibles sur Hugging Face, API compatible OpenAI, et bientôt en déploiement local optimisé. À 0,30 $ par million de tokens sous licence Apache 2.0, l’argument pour évaluer sérieusement V4 dans votre stack est difficile à ignorer — indépendamment de toute considération géopolitique.