DeepSeek s’apprête à lancer V4, un modèle multimodal de 1 000 milliards de paramètres avec seulement 37 milliards actifs par token, une fenêtre de contexte d’un million de tokens, et des benchmarks qui rivalisent avec Claude Opus et GPT-5. Le tout en open source, sous licence Apache 2.0. Avril 2026 pourrait bien marquer un tournant dans la course mondiale à l’IA.
Depuis le choc DeepSeek-R1 début 2025, la startup chinoise n’a cessé de bousculer les certitudes de la Silicon Valley. Avec V4, elle passe à la vitesse supérieure — et cette fois, c’est le multimodal natif qui change la donne.
Un trillion de paramètres, 37 milliards actifs : l’architecture MoE poussée à l’extrême
DeepSeek V4 repose sur une architecture Mixture-of-Experts (MoE) d’environ 1 000 milliards de paramètres. Mais la vraie prouesse est ailleurs : seuls 37 milliards de paramètres sont actifs simultanément pour chaque token traité. C’est ce qui permet au modèle d’être à la fois massif en capacité et raisonnable en coût d’inférence.
Pour donner un ordre de grandeur, GPT-4o facture l’inférence à 2,50 $ par million de tokens, Claude Opus à 15 $ par million. DeepSeek, fidèle à sa stratégie de prix cassés, devrait proposer V4 aux alentours de 0,30 $ par million de tokens. Un rapport qualité-prix qui va faire réfléchir beaucoup de décideurs.
L’autre innovation majeure est le système de mémoire conditionnelle Engram, qui alimente une fenêtre de contexte de 1 million de tokens avec une précision de récupération annoncée à 97 %. En clair : le modèle peut ingérer l’équivalent de plusieurs livres et retrouver une information précise avec une fiabilité quasi totale.
Multimodal natif : texte, image et vidéo dès le pré-entraînement
C’est probablement le saut qualitatif le plus significatif de V4. Contrairement à la plupart des modèles concurrents qui ajoutent les capacités visuelles après coup (fine-tuning sur un modèle texte existant), DeepSeek V4 intègre le texte, l’image et la vidéo directement pendant le pré-entraînement.
Concrètement, cela signifie que le modèle peut analyser une image, répondre à des questions dessus, générer des images à partir de descriptions complexes, et même créer des vidéos à partir de texte — le tout avec un raisonnement cross-modal cohérent. Ce n’est plus du bricolage multimodal, c’est de l’intégration native.
Pour les entreprises, les implications sont directes. Un seul modèle pourrait gérer la documentation technique (texte), l’analyse de schémas (image) et la génération de tutoriels vidéo. Le tout via une API unique et à un coût défiant toute concurrence.
Des benchmarks qui bousculent la hiérarchie
Les benchmarks divulgués — qu’il faut prendre avec prudence tant qu’ils ne sont pas vérifiés indépendamment — sont impressionnants. DeepSeek annonce 90 % sur HumanEval (génération de code) et plus de 80 % sur SWE-bench Verified (résolution de bugs réels dans des dépôts open source).
Si ces chiffres se confirment, V4 se positionnerait au niveau de Claude Opus 4.6 et de GPT-5 sur les tâches de programmation — qui sont devenues le benchmark de référence pour évaluer le raisonnement des LLM. C’est d’autant plus remarquable que DeepSeek opère avec des contraintes matérielles que n’ont pas ses concurrents américains.
Car c’est là le contexte géopolitique incontournable : les restrictions américaines sur l’export de puces Nvidia vers la Chine n’ont pas freiné DeepSeek. La startup a optimisé V4 pour les puces domestiques Huawei Ascend et Cambricon, démontrant que les sanctions technologiques ont peut-être accéléré l’innovation chinoise plutôt que de la ralentir.
Open source radical : Apache 2.0 pour un modèle à 1 000 milliards de paramètres
DeepSeek prévoit de publier les poids de V4 sous licence Apache 2.0. C’est un choix stratégique majeur. À l’échelle d’un modèle de cette taille, c’est pratiquement sans précédent. Meta avec Llama a ouvert la voie, mais Llama 3 reste sous une licence communautaire restrictive. DeepSeek va plus loin avec une licence véritablement permissive.
Cette stratégie open source n’est pas de la philanthropie. C’est un calcul d’adoption. En rendant V4 librement accessible, DeepSeek s’assure que des milliers de développeurs, startups et entreprises construiront sur son modèle — créant un écosystème qui renforce sa position de facto.
Les chiffres parlent d’eux-mêmes : les modèles open source chinois représentent désormais près de 30 % de l’utilisation mondiale des modèles IA, selon les données récentes. DeepSeek et Qwen d’Alibaba sont les deux locomotives de cette adoption.
Ce que ça change pour les entreprises françaises
Je pense que V4 va accélérer une tendance déjà en cours : la démocratisation de l’IA de pointe via l’open source. Pour une PME ou ETI française, disposer d’un modèle multimodal de classe mondiale, auto-hébergeable, sans frais de licence et à coût d’inférence minimal, c’est un changement de paradigme.
Les cas d’usage concrets ne manquent pas. Analyse automatique de documents techniques avec schémas. Service client multimodal capable de traiter texte et images. Génération de contenu marketing cross-format. Le tout sans dépendre d’une API américaine et avec un contrôle total sur les données — un argument qui pèse lourd en Europe avec le RGPD et l’AI Act.
Bien sûr, il y a des questions légitimes sur la gouvernance d’un modèle développé en Chine. Mais le code est ouvert, les poids sont inspectables, et la communauté open source mondiale saura identifier d’éventuels biais ou problèmes. C’est précisément l’avantage de l’open source sur les boîtes noires propriétaires.
Mon analyse : la stratégie chinoise est en train de fonctionner
Ce qui me frappe avec DeepSeek V4, c’est la cohérence de la stratégie. Prix cassés, open source maximal, optimisation sur puces domestiques, et maintenant multimodal natif. Chaque release repousse les limites tout en restant accessible.
Les restrictions américaines sur les puces devaient freiner l’IA chinoise. Au lieu de cela, elles ont forcé des innovations architecturales — comme le MoE ultra-efficient de DeepSeek — qui rendent les modèles chinois plus accessibles, pas moins performants. C’est un cas d’école d’adaptation sous contrainte.
Avril 2026 ne sera peut-être pas le mois où DeepSeek détrône OpenAI ou Anthropic. Mais c’est clairement le mois où l’argument « les modèles chinois sont en retard » devient définitivement obsolète.




