Gemma 4 12B : le modele multimodal open source de Google sur laptop

Pendant que tout le monde commente Gemini, Google DeepMind a livré le 3 juin un modèle bien plus discret mais bien plus utile au quotidien : Gemma 4 12B. Il tient dans 16 Go de mémoire, comprend le texte, l'image, l'audio et la vidéo, et il est open source. Surtout, il fait sauter une brique qu'on croyait incontournable dans les modèles multimodaux : l'encodeur.

Un modèle ouvert qui tourne vraiment sur votre machine

Gemma 4 12B est la déclinaison « milieu de gamme » de la famille Gemma, positionnée entre le petit E4B et le gros modèle 26B à mélange d'experts (MoE). Avec ses 12 milliards de paramètres, il vise un point d'équilibre précis : assez intelligent pour des tâches sérieuses, assez léger pour un poste de travail.

Concrètement, il tourne sur un laptop équipé de 16 Go de VRAM ou de mémoire unifiée. Pas besoin d'un serveur GPU ni d'un abonnement cloud. Google le distribue sous licence Apache 2.0, c'est-à-dire en open weights réellement exploitable en production, y compris commerciale.

Le modèle est déjà disponible partout où un développeur a l'habitude d'aller chercher ses modèles : Hugging Face, Kaggle, Ollama, LM Studio, mais aussi Vertex AI, Cloud Run et GKE côté Google Cloud. Pour donner une idée de l'élan, la famille Gemma 4 a déjà franchi les 150 millions de téléchargements.

« Encoder-free » : le pari technique qui change la donne

La vraie nouveauté de Gemma 4 12B n'est pas sa taille, c'est son architecture sans encodeur (« encoder-free »). Dans un modèle multimodal classique, chaque type d'entrée passe d'abord par un encodeur dédié — un pour l'image, un pour l'audio — qui traduit le signal avant de le donner au modèle de langage. C'est lourd, c'est de la mémoire en plus, et ça multiplie les pièces à maintenir.

Ici, Google supprime cet étage intermédiaire. Pour la vision, l'image passe par un module d'embedding ultra-léger — une simple multiplication matricielle, des embeddings positionnels et quelques normalisations — puis entre directement dans le cœur du modèle. Pour l'audio, le signal brut est projeté dans le même espace dimensionnel que les tokens de texte.

Le résultat, c'est un modèle unifié : une seule architecture qui ingère texte, image, audio et vidéo sans pipeline séparé. Moins de complexité, moins de mémoire, et un comportement plus cohérent d'une modalité à l'autre. C'est exactement le genre de simplification qui rend un modèle viable en local.

Premier modèle « moyen » avec l'audio en natif

Autre première qui mérite qu'on s'y arrête : Gemma 4 12B est, selon Google, le premier modèle de taille moyenne à intégrer l'audio en entrée nativement. Jusqu'ici, faire comprendre de la voix à un modèle local imposait d'empiler un moteur de transcription en amont, avec ses latences et ses erreurs.

Là, l'audio est traité dans le même flux que le reste. Couplé à une fenêtre de contexte de 256 000 tokens, cela ouvre des usages très concrets : analyser un enregistrement de réunion, construire un assistant vocal qui tourne hors-ligne, ou traiter des documents longs mêlant texte et pièces jointes audio — le tout sur la machine, sans appel réseau.

Pour une PME, cette combinaison « multimodal + local + ouvert » n'est pas un gadget. Elle signifie qu'on peut faire transcrire, résumer ou analyser des contenus sensibles sans jamais les envoyer à un tiers, donc avec un argument de conformité solide.

Des performances proches d'un modèle deux fois plus lourd

Un modèle léger et ouvert, c'est bien ; encore faut-il qu'il tienne la route. Google annonce des performances proches de son modèle 26B sur les benchmarks standards, tout en consommant moins de la moitié de la mémoire. C'est le vrai argument : on récupère l'essentiel de l'intelligence du gros modèle, dans une empreinte qui passe sur un portable.

Côté chiffres rapportés, Gemma 4 12B affiche notamment 77,2 % sur MMLU Pro, 78,8 % sur GPQA Diamond (raisonnement de niveau expert) et 77,5 % sur AIME 2026 en mathématiques. Sur le multimodal, il atteint 69,1 % sur MMMU Pro. Pour un modèle de cette taille, ce sont des scores qui le placent au niveau des meilleurs modèles ouverts du moment.

Google a aussi embarqué des drafters Multi-Token Prediction (MTP), une technique qui prédit plusieurs tokens d'avance pour accélérer la génération. Sur une machine locale où chaque milliseconde compte, ce genre d'optimisation fait la différence à l'usage.

Mon analyse : l'open de Google n'est pas de la générosité

Il faut lire Gemma 4 12B pour ce qu'il est : une pièce stratégique, pas un cadeau. Google joue désormais sur les deux tableaux. D'un côté, Gemini, fermé, dans le cloud, facturé au token. De l'autre, Gemma, ouvert, local, gratuit à l'usage une fois le matériel acquis. Les deux ne s'adressent pas aux mêmes besoins, et c'est tout l'intérêt.

En sortant un modèle ouvert, multimodal et réellement déployable en local, Google verrouille l'écosystème des développeurs face à Llama, Mistral ou Qwen. Un dev qui prototype sur Gemma, qui maîtrise ses prompts et son fine-tuning, basculera d'autant plus facilement vers Vertex AI et Gemini le jour où il aura besoin de puissance cloud. L'open weights, ici, c'est un canal d'acquisition.

Pour les développeurs et les PME, peu importe la motivation : le résultat est excellent. On dispose d'un modèle capable, multimodal, privé et gratuit à l'usage, sous une licence permissive, qui tourne sur le matériel qu'on a déjà. Dans un marché où l'IA est massivement facturée au token, c'est une option qui mérite d'être sérieusement évaluée avant de signer le moindre contrat cloud.

La direction est claire : l'intelligence utile ne sera pas seulement dans le cloud. Une partie va redescendre sur nos machines, gratuite et privée — et Gemma 4 12B est l'une des démonstrations les plus convaincantes de ce mouvement.

J'ai détaillé l'architecture sans encodeur, les benchmarks et les cas d'usage concrets dans mon analyse complète sur TECH ACTU — le lien est en commentaire.

Gemma 4 12B : l'IA multimodale ouverte sans encodeur, sur un laptop

Un modèle ouvert qui tourne vraiment sur votre machine

« Encoder-free » : le pari technique qui change la donne

Premier modèle « moyen » avec l'audio en natif

Des performances proches d'un modèle deux fois plus lourd

Mon analyse : l'open de Google n'est pas de la générosité

Partager cet article

À lire aussi en IA & Machine Learning

Zoom sur les 15 start-up européennes intégrées au programme de Google DeepMind en robotique

MiniMax M3 : l'IA chinoise qui voit, code et tient 1 million de tokens

Google tenu responsable des résultats de recherche IA : une décision allemande qui change la donne

Google explore l'intégration de l'IA dans les résultats de recherche sur Chrome

Gemma 4 12B : l'IA multimodale ouverte sans encodeur, sur un laptop

Un modèle ouvert qui tourne vraiment sur votre machine

« Encoder-free » : le pari technique qui change la donne

Premier modèle « moyen » avec l'audio en natif

Des performances proches d'un modèle deux fois plus lourd

Mon analyse : l'open de Google n'est pas de la générosité

Partager cet article

Termes du glossaire liés

À lire aussi en IA & Machine Learning

Zoom sur les 15 start-up européennes intégrées au programme de Google DeepMind en robotique

MiniMax M3 : l'IA chinoise qui voit, code et tient 1 million de tokens

Google tenu responsable des résultats de recherche IA : une décision allemande qui change la donne

Google explore l'intégration de l'IA dans les résultats de recherche sur Chrome