Le 2 avril 2026, Google DeepMind a lance Gemma 4 — quatre modeles open source sous licence Apache 2.0, capables de rivaliser avec les meilleurs flagships proprietaires. De votre telephone a un GPU de datacenter, la famille Gemma 4 est la plus ambitieuse publiee par Google a ce jour.
GPT-5.4, Claude Sonnet 4.6, Mistral Large... La guerre des modeles fermes est intense. Mais Google DeepMind joue un coup different : rendre disponible gratuitement, sans restrictions commerciales, un modele scorant 89,2 % sur AIME 2026. Gemma 3 27B plafonnait a 20,8 % sur le meme test. Un bond de 68 points en une generation.
Quatre modeles, du smartphone au H100
Gemma 4 se decline en quatre tailles : E2B (2,3 milliards de parametres), E4B (4,5 milliards), 26B A4B MoE (4 milliards actifs sur 26), et 31B Dense. E2B tourne sur smartphone, E4B sur laptop 8 Go de RAM, le 26B MoE sur GPU 24 Go, le 31B Dense sur H100 80 Go. Google a concu cette gamme comme une cascade : vous prenez la puissance dont vous avez besoin.
La fenetre de contexte : 128K tokens pour E2B et E4B, 256K tokens pour 26B et 31B. Suffisant pour traiter un corpus documentaire complet en une seule passe.
89,2 % sur AIME 2026 : le chiffre marquant
Sur AIME 2026, benchmark de reference pour le raisonnement avance, le 31B Dense atteint 89,2 %. Le 26B MoE decroche 88,3 % en n activant que 4 milliards de parametres. Gemma 3 27B etait a 20,8 %.
Code : 80,0 % sur LiveCodeBench v6. Science (GPQA Diamond) : 84,3 %. LMArena : 1 452 pour le 31B, dans le top des modeles toutes categories. L impact sur les couts compute pour les workloads a volume est direct et significatif.
Architecture repensee : attention hybride, PLE, KV Cache partage
Gemma 4 est une refonte architecturale. L attention hybride alterne couches locales (sliding window 512-1024 tokens) et couches globales, reduisant les couts quadratiques sans perdre la coherence longue distance. Les Per-Layer Embeddings (PLE) injectent un signal residuel dans chaque couche du decodeur. Le KV Cache partage elimine les projections cle-valeur redondantes.
Multimodalite native : texte et image sur tous les modeles, audio (ASR, traduction speech-to-text) sur E2B et E4B. Les modeles edge sont de vrais assistants multimodaux deployables sur appareils grand public.
Deploiement local en day-0 : Ollama, llama.cpp, MLX
Des le lancement, Gemma 4 etait disponible sur Ollama, llama.cpp, MLX (Apple Silicon), Hugging Face Transformers et mistral.rs. Un Mac M2 avec 16 Go de RAM fait tourner E4B localement, sans dependance cloud, sans cout API, donnees sur la machine.
La licence Apache 2.0 autorise tout usage commercial. Fine-tuning sur donnees proprietes, embarquement dans un produit commercial : aucune restriction. C est la meme democratisation que Llama 3 avait initiee chez Meta, avec des benchmarks plus solides et une gamme plus coherente.
Ce que ca change : l open source rejoint le frontier
Le debat open source vs flagships fermes est desormais ferme sur les benchmarks cles. Des equipes peuvent construire des agents IA serieux sur des modeles qu elles controlent entierement — sans fuite de donnees vers un cloud tiers, sans facture API impredictible.
Le trade-off face a GPT-5.4 mini se joue sur la vitesse d inference et la fenetre de contexte (1M tokens via API contre 256K). Mais pour l on-premise, la souverainete des donnees, ou la maitrise des couts, Gemma 4 repositionne radicalement la question du choix de modele en 2026.




