Le 24 avril 2026, DeepSeek a lache une bombe dans l ecosysteme IA mondial. Son nouveau modele V4 decline en deux versions Pro et Flash cumule des caracteristiques qui auraient semble irrealistes il y a deux ans : 1,6 trillion de parametres, contexte d un million de tokens, multimodalite native, prix 10 fois inferieurs a GPT-5.5, et pour la premiere fois, une architecture concue pour tourner nativement sur les puces chinoises Huawei Ascend. Ce n est pas juste une mise a jour c est un changement de coordonnees.
Architecture : un monstre d efficacite
DeepSeek V4 Pro embarque 1,6 trillion de parametres dans une architecture Mixture-of-Experts (MoE) mais seulement 49 milliards sont actives par inference. Le modele Flash totalise 284 milliards de parametres pour 13 milliards actives. Cette approche MoE permet une puissance massive tout en maintenant des couts d inference raisonnables.
Deux innovations majeures distinguent V4 : le DSA (DeepSeek Sparse Attention), qui compresse au niveau des tokens avant le calcul, reduisant drastiquement les besoins en KV cache. Sur un contexte de 1 million de tokens, V4-Pro ne consomme que 27% des FLOPs d inference et 10% du KV cache de DeepSeek-V3.2.
Ensuite, les kernels de V4 ne sont plus ecrits en CUDA, mais dans un langage dedie appele TileLang. L idee : decrire les operations a un niveau plus abstrait, compilables vers differentes architectures. C est ce qui permet a V4 de tourner sur les puces Huawei Ascend, Cambricon et Biren.
La rupture avec Nvidia : une premiere historique
DeepSeek V4 est le premier modele de frontiere chinois officiellement optimise pour les puces Huawei Ascend. Jusqu ici, meme les modeles open-source chinois restaient dependants des A100/H100 pour l entrainement et l inference en production.
Ce n est pas anodin dans un contexte de restrictions americaines sur l export de puces IA vers la Chine. Les sanctions successives de 2022, 2023 et 2024 ont progressivement coupe l acces aux GPU Nvidia les plus puissants. La reponse de DeepSeek : reecrire l infrastructure bas niveau pour s affranchir de cette dependance.
La nuance : DeepSeek indique avoir adapte une partie du pipeline d entrainement pour les puces chinoises. L entrainement initial a probablement encore implique des clusters Nvidia. Mais la direction est claire.
Performances : SOTA open source sur coding et maths
Sur les benchmarks, DeepSeek V4-Pro-Max obtient un score de 88 sur les benchmarks composites BenchLM, et 81% sur SWE-bench - le benchmark de reference pour les capacites agentiques en developpement logiciel. Sur les taches de recuperation longue portee (MRCR 1M needle-in-a-haystack), V4-Pro-Max atteint 83,5%, surpassant Gemini-3.1-Pro.
En Math/STEM/Coding, V4 s impose comme le meilleur modele open-source disponible, rivalisant avec les modeles proprietaires des grands labs americains. L ecart entre open-source chinois et closed-source occidental se reduit a vue d oeil.
Le contexte d un million de tokens est desormais la valeur par defaut sur tous les services officiels DeepSeek - un engagement fort sur la gestion des longs documents et des codebases entieres.
Prix : 10 fois moins cher que GPT-5.5
DeepSeek maintient sa reputation de casseur de prix. V4-Pro est facture autour de 0,30 dollar par million de tokens en sortie - contre plusieurs dollars pour les modeles equivalents d OpenAI ou Anthropic. La version Flash descend encore plus bas.
Pour une equipe qui fait tourner un assistant de code en production, l ecart tarifaire est difficile a ignorer. Un facteur 10 sur les couts d inference, c est la difference entre un projet viable et un projet qui reste dans les cartons. C est aussi pourquoi Andreessen Horowitz estimait recemment que 80% des startups americaines utilisent des modeles de base chinois.
Multimodalite native : texte, image, video, audio
V4 integre la multimodalite de facon native - pas un add-on, mais une conception from scratch. Texte, images, video et audio sont traites dans un pipeline unifie. C est un positionnement direct face a GPT-4o et Gemini Ultra.
En pratique, un developpeur peut interroger V4 sur une capture d ecran de code, analyser une session de debogage video, ou traiter des donnees audio - tout ca via la meme API, avec la meme logique tarifaire.
Mon analyse : DeepSeek V4 redefinit le rapport qualite/prix
Je suis ce secteur de pres, et V4 est l une des releases les plus significatives de l annee. L execution est exemplaire : multimodalite native + contexte 1M tokens + prix agressifs + licence MIT + support Huawei cree une offre sans equivalent aujourd hui.
La decision de passer de CUDA a TileLang merite attention. Si TileLang s impose comme standard de facto pour le developpement de kernels IA, cela briserait l un des avantages competitifs de Nvidia - non pas sur le hardware, mais sur l ecosysteme logiciel. Un pari long terme ambitieux.
Pour les equipes en France qui evaluent leurs stacks IA, la question n est plus : est-ce que les modeles chinois sont competitifs ? C est desormais acquis. La vraie question est celle de la confiance, de la souverainete des donnees et de la compliance RGPD. Le self-hosting via Hugging Face sous licence MIT reste la reponse la plus solide. J ai detaille les implications pratiques dans mon dernier article sur TECH ACTU - le lien est en commentaire.




