Gemma 4 Google DeepMind : frontier open source Apache 2.0

Le 2 avril 2026, Google DeepMind a lance Gemma 4 — quatre modeles open source sous licence Apache 2.0, capables de rivaliser avec les meilleurs flagships proprietaires. De votre telephone a un GPU de datacenter, la famille Gemma 4 est la plus ambitieuse publiee par Google a ce jour.

GPT-5.4, Claude Sonnet 4.6, Mistral Large... La guerre des modeles fermes est intense. Mais Google DeepMind joue un coup different : rendre disponible gratuitement, sans restrictions commerciales, un modele scorant 89,2 % sur AIME 2026. Gemma 3 27B plafonnait a 20,8 % sur le meme test. Un bond de 68 points en une generation.

Quatre modeles, du smartphone au H100

Gemma 4 se decline en quatre tailles : E2B (2,3 milliards de parametres), E4B (4,5 milliards), 26B A4B MoE (4 milliards actifs sur 26), et 31B Dense. E2B tourne sur smartphone, E4B sur laptop 8 Go de RAM, le 26B MoE sur GPU 24 Go, le 31B Dense sur H100 80 Go. Google a concu cette gamme comme une cascade : vous prenez la puissance dont vous avez besoin.

La fenetre de contexte : 128K tokens pour E2B et E4B, 256K tokens pour 26B et 31B. Suffisant pour traiter un corpus documentaire complet en une seule passe.

89,2 % sur AIME 2026 : le chiffre marquant

Sur AIME 2026, benchmark de reference pour le raisonnement avance, le 31B Dense atteint 89,2 %. Le 26B MoE decroche 88,3 % en n activant que 4 milliards de parametres. Gemma 3 27B etait a 20,8 %.

Code : 80,0 % sur LiveCodeBench v6. Science (GPQA Diamond) : 84,3 %. LMArena : 1 452 pour le 31B, dans le top des modeles toutes categories. L impact sur les couts compute pour les workloads a volume est direct et significatif.

Architecture repensee : attention hybride, PLE, KV Cache partage

Gemma 4 est une refonte architecturale. L attention hybride alterne couches locales (sliding window 512-1024 tokens) et couches globales, reduisant les couts quadratiques sans perdre la coherence longue distance. Les Per-Layer Embeddings (PLE) injectent un signal residuel dans chaque couche du decodeur. Le KV Cache partage elimine les projections cle-valeur redondantes.

Multimodalite native : texte et image sur tous les modeles, audio (ASR, traduction speech-to-text) sur E2B et E4B. Les modeles edge sont de vrais assistants multimodaux deployables sur appareils grand public.

Deploiement local en day-0 : Ollama, llama.cpp, MLX

Des le lancement, Gemma 4 etait disponible sur Ollama, llama.cpp, MLX (Apple Silicon), Hugging Face Transformers et mistral.rs. Un Mac M2 avec 16 Go de RAM fait tourner E4B localement, sans dependance cloud, sans cout API, donnees sur la machine.

La licence Apache 2.0 autorise tout usage commercial. Fine-tuning sur donnees proprietes, embarquement dans un produit commercial : aucune restriction. C est la meme democratisation que Llama 3 avait initiee chez Meta, avec des benchmarks plus solides et une gamme plus coherente.

Ce que ca change : l open source rejoint le frontier

Le debat open source vs flagships fermes est desormais ferme sur les benchmarks cles. Des equipes peuvent construire des agents IA serieux sur des modeles qu elles controlent entierement — sans fuite de donnees vers un cloud tiers, sans facture API impredictible.

Le trade-off face a GPT-5.4 mini se joue sur la vitesse d inference et la fenetre de contexte (1M tokens via API contre 256K). Mais pour l on-premise, la souverainete des donnees, ou la maitrise des couts, Gemma 4 repositionne radicalement la question du choix de modele en 2026.

Gemma 4 : Google DeepMind libère un modèle open source de niveau frontier

Quatre modeles, du smartphone au H100

89,2 % sur AIME 2026 : le chiffre marquant

Architecture repensee : attention hybride, PLE, KV Cache partage

Deploiement local en day-0 : Ollama, llama.cpp, MLX

Ce que ca change : l open source rejoint le frontier

Partager cet article

À lire aussi en IA & Machine Learning

Meta lance un défi majeur à OpenAI et Google avec sa superintelligence

L'Université Paris-1 met l'IA au défi de concevoir une constitution moderne

Les jeunes Français adoptent ChatGPT et les réseaux sociaux comme nouveaux alliés du shopping

Coalition entre OpenAI, Anthropic et Google face aux menaces chinoises sur leurs technologies