IA & Machine Learning Article original TECH ACTU

MiniMax M3 : l'IA chinoise qui voit, code et tient 1 million de tokens

Jean-Paul Lesein 5 min de lecture 50 vues
MiniMax M3 : l'IA chinoise qui voit, code et tient 1 million de tokens

Le 1er juin 2026, le labo shanghaïen MiniMax a publié MiniMax M3, un modèle open-weight qui réunit dans une seule architecture du code de premier plan, du multimodal natif (texte, image, vidéo), le pilotage d'un ordinateur et une fenêtre d'un million de tokens. La clé : l'architecture maison MSA, qui divise par vingt le coût de calcul à contexte long. M3 revendique 59 % sur SWE-Bench Pro, devant GPT-5.5 et Gemini 3.1 Pro. Poids promis sous dix jours — gare à la licence et aux benchmarks maison.

Pendant que tout le monde regardait DeepSeek et Qwen, un troisième labo chinois vient de poser sur la table un modèle qui fait trois choses d'un coup : coder au niveau des meilleurs, comprendre des images et des vidéos, et avaler un million de tokens de contexte. Le 1er juin 2026, la société shanghaïenne MiniMax a publié MiniMax M3, un modèle open-weight qui réunit dans une seule architecture ce que la plupart des acteurs livrent encore en briques séparées. Et il le fait avec une efficacité de calcul qui mérite qu'on s'y arrête.

Un seul modèle pour le code, l'image, la vidéo et le contexte long

Jusqu'ici, la règle tacite était simple : un modèle pour le raisonnement et le code, un autre pour la vision, un troisième pour le contexte très long. MiniMax M3 casse ce découpage. Il est multimodal nativement, entraîné en mélangeant texte, image et vidéo dès l'étape zéro — pas une couche de vision greffée après coup, mais un entraînement mixte sur un volume de l'ordre de 100 000 milliards de tokens.

Concrètement, M3 lit du texte, regarde des images, analyse des vidéos, et peut même piloter un ordinateur de bureau (cliquer, naviguer, remplir des formulaires). Le tout avec une fenêtre de contexte de 1 million de tokens, soit cinq fois plus que la génération précédente, la M2.7, qui plafonnait à 200 000.

Pour situer : un million de tokens, c'est l'équivalent d'une base de code entière, d'un dossier juridique complet ou de plusieurs heures de transcription, ingérés en une seule fois sans découpage. C'est précisément le genre de capacité qui change la donne pour des usages agentiques réels, pas pour des démos.

L'astuce technique : MSA, une attention parcimonieuse qui divise le calcul par 20

Le contexte long, tout le monde en parle, mais peu de modèles le rendent économiquement viable. Le talon d'Achille des Transformers, c'est que le coût de l'attention explose avec la longueur. MiniMax répond avec une architecture maison baptisée MSA — MiniMax Sparse Attention, une attention parcimonieuse présentée comme « propre et facilement extensible ».

Les chiffres avancés sont parlants. À un contexte d'un million de tokens, le coût de calcul par token de M3 ne représente que 1/20e de celui de la génération M2. Cela se traduit par un préremplissage plus de 9 fois plus rapide et un décodage plus de 15 fois plus rapide à pleine charge. Au niveau de l'opérateur de calcul lui-même, MiniMax annonce un gain de plus de face à Flash-Sparse-Attention.

Pourquoi c'est important ? Parce que la vraie barrière du contexte long n'a jamais été technique, elle a toujours été économique. Un modèle qui tient un million de tokens mais qui coûte une fortune à chaque requête reste un gadget. En divisant le calcul par vingt, MiniMax rend le contexte long utilisable au quotidien, et pas seulement sur le papier.

Des benchmarks qui chatouillent GPT-5.5 et Gemini 3.1 Pro

Sur les classements, M3 ne joue pas la modestie. Sur SWE-Bench Pro, le benchmark de référence pour la résolution de bugs réels sur du vrai code, il affiche 59,0 %, un score que MiniMax revendique au-dessus de GPT-5.5 et de Gemini 3.1 Pro. Sur les tâches agentiques et de manipulation de terminal, Terminal-Bench 2.1 grimpe à 66,0 %.

La partie « usage de l'ordinateur » n'est pas en reste : 70,06 % sur OSWorld-Verified (361 tâches d'automatisation desktop) et 74,2 % sur MCP Atlas, qui évalue l'orchestration d'outils via le protocole MCP. Côté efficacité de code, le score SWE-fficiency à 34,8 % mesure non pas la justesse mais la capacité à produire du code performant.

Comme toujours avec les benchmarks publiés par les labos eux-mêmes, je prends ces chiffres avec la prudence d'usage : ce sont des résultats maison, pas encore validés par des tiers indépendants au moment où j'écris ces lignes. Mais même en appliquant une décote de scepticisme, le positionnement est clair : on est sur un modèle de premier plan, pas sur un suiveur.

Open-weight, mais lisez les petites lignes de la licence

MiniMax s'est engagé à publier le rapport technique et les poids du modèle dans les dix jours suivant le lancement, soit autour du 11 juin. C'est la marque de fabrique de l'écosystème chinois : ouvrir, vite, pour gagner les développeurs. Mais « open-weight » ne veut pas dire « libre de droits ».

Sur le modèle précédent, la M2.7, la licence restreignait l'usage commercial sans autorisation écrite préalable. Rien ne garantit que M3 sera plus permissif. Pour une PME ou un éditeur qui voudrait l'intégrer dans un produit, c'est un point à vérifier ligne par ligne avant de s'engager — l'ouverture des poids n'est pas un blanc-seing juridique.

Côté tarifs, l'accès passe par MiniMax Code, l'API et des forfaits mensuels : Plus à 20 $ (environ 1,7 milliard de tokens), Max à 50 $ (5,1 milliards) et Ultra à 120 $ (9,8 milliards). En API, le tarif standard s'applique jusqu'à 512 000 tokens d'entrée, et grimpe au-delà pour le contexte long. C'est, là encore, agressif face aux prix occidentaux.

Mon analyse : la Chine ne copie plus, elle fixe l'agenda

Ce qui me frappe avec M3, ce n'est pas un benchmark isolé, c'est la consolidation. Pendant que beaucoup d'acteurs occidentaux empilent des modèles spécialisés et facturent chaque capacité séparément, MiniMax fusionne code, vision, contexte long et usage de l'ordinateur dans un seul modèle ouvert, et casse le coût du contexte par une innovation d'architecture, pas par de la force brute.

Et ce n'est pas isolé : après DeepSeek, Qwen, GLM et Kimi, MiniMax confirme que la Chine occupe désormais durablement le haut du classement open-weight. On est passé en moins de deux ans du « ils rattrapent leur retard » à « ils fixent les standards d'efficacité que les autres devront suivre ». Le découplage matériel — entraîner sans les puces Nvidia dernier cri — n'a visiblement pas cassé la dynamique logicielle.

Pour une équipe technique française, l'arbitrage devient concret. Un modèle ouvert, multimodal, à contexte d'un million de tokens et facturé une fraction des tarifs américains, ça mérite au minimum un banc d'essai. À condition de garder deux réflexes : vérifier la licence avant tout usage commercial, et se méfier des benchmarks maison tant que des tiers ne les ont pas reproduits.

La vraie question n'est plus de savoir si les modèles chinois sont bons. Elle est de savoir combien de temps l'Europe va se contenter de les consommer sans en produire. J'ai détaillé toutes les caractéristiques, les chiffres et les points de vigilance dans mon analyse complète sur TECH ACTU — le lien est en commentaire.

Partager cet article

À lire aussi en IA & Machine Learning