Gemma 4 : licence Apache 2.0, benchmarks et comparaison open source

Le 2 avril 2026, Google a publié Gemma 4 avec un changement qui a fait plus de bruit que les benchmarks eux-mêmes : la licence passe à Apache 2.0.

Ce détail technique est en réalité une décision stratégique majeure.

Depuis 2024, les modèles Gemma étaient distribués sous une licence permissive maison, avec des restrictions sur la redistribution commerciale qui maintenaient Google dans une position de contrôle.

Apache 2.0, c’est la pleine propriété : tu télécharges, tu modifies, tu redistribues, tu commercialises.

Sans redevance.

Sans demander la permission.

Ce qu’il faut retenir :

Apache 2.0 transforme Gemma 4 en vrai open source : usage commercial libre, fork sans risque, déploiement on-premise RGPD-compliant
Le modèle 26B MoE n’active que 3,8B paramètres à l’inférence : des performances proches du 31B dense pour une fraction des ressources GPU
AIME 89,2% et Codeforces ELO 2150 pour le 31B : un bond générationnel par rapport à Gemma 3, pas une évolution incrémentale
Pour les PME françaises : un 26B quantisé tourne sur RTX 4090 à moins de 2 000 euros, sans abonnement cloud, sans envoyer de données aux États-Unis
La stratégie Google est claire : Gemini pour le cloud payant, Gemma pour l’edge et l’open source — les deux se renforcent mutuellement
Mistral reste pertinent pour les acteurs qui misent sur la souveraineté européenne, mais Gemma 4 redéfinit le rapport performance/coût du segment open source

Gemma 4 en 30 secondes

Quatre modèles, une architecture multimodale native, une licence Apache 2.0 sans restriction commerciale.

Gemma 4 marque la première fois que Google distribue un modèle de cette envergure sous Apache 2.0, sans clause restrictive cachée dans les conditions générales.

Les chiffres d’adoption Gemma 3 parlent d’eux-mêmes : 400 millions de téléchargements et 100 000 variantes créées par la communauté sur Hugging Face.

Ces chiffres révèlent quelque chose d’important : un modèle open source de qualité génère une communauté indépendante que Google ne contrôle plus, et dont il tire un bénéfice direct en termes de réputation et d’adoption.

Avec Gemma 4, Google parie que l’ouverture totale accélère l’adoption mieux que toute restriction de licence.

Quatre modèles du smartphone au datacenter

La gamme Gemma 4 couvre un spectre matériel plus large qu’aucun modèle open source ne l’avait fait jusqu’ici.

Modèle	Paramètres totaux / actifs	Architecture	Fenêtre de contexte	Matériel cible
E2B	~2B / ~2B	Dense	128K tokens	Smartphones, Raspberry Pi
E4B	~4B / ~4B	Dense	128K tokens	Smartphones haut de gamme, Jetson Nano
26B MoE (A4B)	26B / 3,8B	MoE 128 experts	256K tokens	GPU grand public (quantisé)
31B dense	31B / 31B	Dense	256K tokens	GPU/CPU haut de gamme

E2B et E4B ciblent explicitement les appareils mobiles et l’edge computing : traduction hors ligne, génération de code sur appareil, applications de santé où les données ne doivent pas quitter le terminal.

Tous les modèles sont nativement multimodaux : texte, image, audio et vidéo sur les petits modèles, texte et image sur les grands.

Le support de 140 langues est intégré, ce qui positionne Gemma 4 comme un candidat sérieux pour les applications internationales sans traduction intermédiaire.

Passer d’un modèle de texte à un modèle qui comprend image, audio et vidéo sur un smartphone, c’est la différence entre un assistant qui lit et un assistant qui perçoit.

Le vrai game-changer Apache 2.0

Les licences IA sont rarement passionnantes à analyser, sauf quand elles changent quelque chose de fondamental.

Là, c’est le cas.

Ce que change concrètement la licence Apache 2.0

L’ancienne licence Gemma autorisait un usage personnel et de recherche, mais bridait la redistribution commerciale : des catégories d’usage étaient explicitement approuvées, d’autres non.

Résultat : de nombreuses entreprises évitaient Gemma par précaution juridique, même pour des usages qui auraient probablement été acceptés.

Apache 2.0 efface cette ambiguïté : usage commercial libre, modification et redistribution sans restriction, inclusion obligatoire de la licence et d’une attribution, protection automatique des brevets pour les contributeurs.

Pour un service informatique ou un juriste d’entreprise, c’est la différence entre « probablement OK » et « certifié OK ».

L’analogie la plus juste : passer du leasing à la pleine propriété du véhicule.

Tu peux le modifier, le revendre, l’adapter en service commercial, sans demander la permission au constructeur.

La fin du faux open source Google

Google a une longue histoire de modèles « ouverts » avec des restrictions qui les rendaient moins libres que leurs concurrents.

Gemma 1 et 2 étaient utilisables, mais pas comparables à la licence de Meta Llama, elle-même critiquable mais plus permissive commercialement.

Avec Apache 2.0, Google se place sur le même terrain que Mistral et Qwen : des modèles que les entreprises peuvent réellement adopter sans risque juridique résiduel.

C’est aussi un signal envoyé à la communauté Hugging Face : Gemma 4 est conçu pour être forké, quantisé, fine-tuné, intégré dans des produits commerciaux sans friction.

Une licence Apache 2.0 sur un modèle de cette taille, c’est Google qui dit à toute la communauté open source : « Faites-en ce que vous voulez, on gagne à chaque fois que vous l’utilisez. »

Performances et benchmarks au crible

Les chiffres publiés par Google sont impressionnants.

La question pertinente : comprendre ce qu’ils signifient dans la pratique.

Des bonds qui méritent attention

Sur AIME 2026 (compétition de mathématiques de haut niveau) : Gemma 3 27B obtenait 20,8%, Gemma 4 31B monte à 89,2%.

Ce n’est pas une amélioration incrémentale : c’est un changement de catégorie.

Sur Codeforces (compétition de programmation), le score ELO passe de 110 à 2 150 pour le 31B, soit un niveau de compétition comparable à des développeurs professionnels confirmés.

Benchmark	G4 31B	G4 26B MoE	G4 E4B	G3 27B
MMLU-Pro	85,2%	82,6%	69,4%	67,6%
AIME 2026	89,2%	88,3%	42,5%	20,8%
GPQA Diamond	84,3%	82,3%	58,6%	42,4%
LiveCodeBench v6	80,0%	77,1%	52,0%	29,1%
Codeforces ELO	2 150	1 718	940	110

Limites à garder en tête : ces benchmarks sont auto-rapportés par Google.

La communauté Hacker News a immédiatement lancé ses propres évaluations, et les résultats préliminaires confirment la hiérarchie, sans toujours atteindre exactement les mêmes chiffres sur des tâches réelles.

Le 26B MoE à 88,3% sur AIME avec seulement 3,8B paramètres actifs est le résultat le plus frappant : il bat des modèles denses bien plus lourds à l’inférence.

Tableau comparatif avec la concurrence

Modèle	Licence	Multimodal natif	On-device	Contexte max	MoE	MMLU-Pro (approx.)
Gemma 4 31B	Apache 2.0	Oui	Oui (E2B/E4B)	256K	Oui (26B A4B)	85,2%
Llama 4	Llama License	Oui	Partiel	128K	Oui	~84%
Qwen 3.5	Apache 2.0	Partiel	Non	128K	Oui	~86,7%
Mistral Small 4	Apache 2.0	Non	Non	32K	Oui (Mixtral)	Inférieur

Gemma 4 domine sur trois dimensions simultanément : licence libre, multimodalité native, déploiement edge.

Qwen 3.5 le dépasse légèrement sur les benchmarks purs, mais sans capacité on-device et avec un support multimodal partiel.

Le ratio intelligence/paramètre : pourquoi le MoE change tout

Le Mixture of Experts existe depuis plusieurs années, et Gemma 4 en fait l’usage le plus efficace à ce niveau de performance.

Le principe : le modèle 26B total contient 128 experts spécialisés, mais en active seulement 8 en moyenne par token traité, soit environ 3,8B paramètres actifs à chaque inférence.

L’analogie la plus claire : imaginer un cabinet de 128 consultants, dont seulement 8 sont convoqués pour chaque question, selon leur spécialité.

Le résultat : des performances proches du 31B dense, avec une empreinte mémoire et une vitesse d’inférence correspondant à un modèle de 3,8B.

Sur Arena AI, le 26B MoE se classe parmi les 6 meilleurs modèles open source, devant des modèles denses deux à trois fois plus lourds à faire tourner.

Un MoE bien conçu ne fait pas que réduire les coûts : il change la catégorie de matériel nécessaire pour obtenir des performances frontier.

Stratégie Google : Gemini vend le cloud, Gemma vend l’adoption

La question que tout le monde se pose : pourquoi Google distribue-t-il gratuitement un modèle qui concurrence ses propres APIs Gemini ?

La réponse tient en une logique plateforme.

Gemini reste propriétaire, accessible par abonnement ou API payante, optimisé pour les tâches lourdes nécessitant la puissance des datacenters Google.

Gemma couvre l’edge, le local, le on-premise : les cas d’usage où envoyer des données dans le cloud est impossible (conformité RGPD, latence, coût, hors-connexion).

Les deux gammes partagent la même recherche fondamentale : Gemini Nano 4 sur Android et les puces Pixel utilise la même base que Gemma E2B/E4B.

Chaque développeur qui adopte Gemma apprend les patterns Google, s’habitue aux APIs et aux outils de la plateforme, et devient un candidat naturel pour Gemini cloud quand ses besoins dépassent ce que le local peut faire.

C’est la stratégie du cheval de Troie Android : dominer l’edge pour être présent partout, y compris là où le cloud ne peut pas aller.

Les capacités agentiques : function calling et JSON natifs

Gemma 4 intègre nativement le function calling, la génération de JSON structuré et la gestion de system prompts complexes.

Ces trois capacités forment les briques de base des agents IA autonomes : appeler des fonctions externes, produire des sorties directement exploitables par du code, maintenir un contexte long.

Un modèle avec une fenêtre de 256K tokens peut orchestrer des workflows multi-étapes sans infrastructure supplémentaire.

Des intégrations comme l’ADK Java pour agents (Android Developer Kit) montrent que Google prépare Gemma 4 à être le moteur d’agents locaux sur Android : des assistants qui agissent sur votre téléphone sans jamais envoyer de requêtes à distance.

Pour les développeurs francophones, le 31B est clairement le choix agentique si le matériel le permet.

Le 26B MoE est le meilleur compromis performance/accessibilité pour la grande majorité des cas.

Et pour les Français ? Souveraineté et Mistral

La question de la souveraineté numérique est devenue centrale pour les entreprises françaises et européennes depuis le RGPD.

Gemma 4 sous Apache 2.0 répond à cette contrainte d’une façon que les APIs cloud ne peuvent pas : les données ne quittent jamais l’infrastructure de l’entreprise.

Un modèle 26B MoE quantisé en INT4 tourne sur une RTX 4090, une carte disponible en configuration de travail pour moins de 2 000 euros.

Pour une startup ou une PME traitant des données médicales, juridiques ou financières, c’est la différence entre un déploiement IA impossible (données sensibles, RGPD) et un déploiement immédiatement réalisable.

Mistral reste pertinent pour les acteurs qui veulent soutenir un champion européen, et son ancrage français peut peser dans les décisions d’achat publiques ou para-publiques.

Sur le plan technique, Mistral Small 4 ne rivalise pas avec Gemma 4 26B MoE sur les benchmarks généraux, le multimodal ou la fenêtre de contexte.

Les deux peuvent coexister dans un portefeuille technologique : Gemma 4 pour les tâches intensives en raisonnement et multimodal, Mistral pour les cas où la localité géographique des serveurs et le soutien à la filière européenne priment.

Comment tester Gemma 4 dès maintenant

Le chemin le plus rapide pour tester localement passe par Ollama, disponible sur Mac, Linux et Windows.

Trois commandes suffisent :

Installation : brew install --cask ollama (ou téléchargement depuis ollama.com)
Téléchargement : ollama pull gemma4:26b (choisir e2b, e4b, ou 31b selon le matériel)
Premier test : ollama run gemma4:26b "Explique le MoE en une phrase"

Le E4B convient à tout Mac récent avec Apple Silicon, le 26B MoE demande 16 Go de VRAM minimum en quantisé, le 31B dense nécessite 24 Go ou plus.

Des intégrations directes existent dans LM Studio, Jan et les frameworks Python habituels (LangChain, LlamaIndex) via les endpoints compatibles OpenAI d’Ollama.

Le blog Anthem suivra l’adoption de Gemma 4 dans la communauté francophone : retours d’expérience, cas d’usage réels, comparaisons terrain.

Si vous testez Gemma 4 localement, partagez votre retour en commentaire : quel modèle, quel matériel, quel cas d’usage.

Notre verdict

Gemma 4 n’est pas le meilleur modèle open source sur chaque benchmark individuel.

C’est le modèle open source le plus complet de 2026 : la seule gamme à couvrir simultanément le smartphone, le GPU grand public et le serveur, avec une licence sans ambiguïté, une multimodalité native et des capacités agentiques intégrées.

Le bond de Gemma 3 à Gemma 4 est le plus important que Google ait jamais réalisé sur une génération de modèles ouverts.

Pour les développeurs et entreprises français, l’équation est simple : Apache 2.0 + on-premise + 256K de contexte + multimodal natif résout des problèmes de conformité qui bloquaient des projets entiers.

La question centrale n’est plus « peut-on utiliser Gemma 4 ? » : c’est « pour quels projets choisir quel modèle de la gamme ? »

FAQ

Gemma 4 est-il réellement open source avec Apache 2.0 ?

Oui : Apache 2.0 autorise l’usage commercial, la modification et la redistribution sans restriction, avec seulement l’obligation d’inclure la licence et une attribution.

C’est un standard reconnu et compris par les équipes juridiques d’entreprise.

Quelle différence entre Gemma 4 et Gemini ?

Gemini est le modèle propriétaire de Google, accessible via API payante et cloud.

Gemma 4 est open source, conçu pour tourner localement ou on-premise.

Les deux partagent la même recherche fondamentale mais s’adressent à des cas d’usage distincts.

Quel modèle Gemma 4 choisir selon mon matériel ?

E2B/E4B : smartphones et appareils edge. 26B MoE : GPU grand public avec 16 Go VRAM minimum (RTX 3090/4090). 31B dense : serveurs ou configurations 24+ Go VRAM pour les tâches les plus exigeantes.

Gemma 4 est-il meilleur que Llama 4 ?

Les deux sont compétitifs sur les benchmarks généraux.

Gemma 4 gagne sur le déploiement on-device (E2B/E4B), la fenêtre de contexte 256K vs 128K, la multimodalité native et la clarté de la licence Apache 2.0.

Llama 4 conserve des avantages sur plusieurs benchmarks de raisonnement et bénéficie d’une communauté plus mature.

Le 26B MoE consomme-t-il aussi peu que 3,8B paramètres à l’inférence ?

À l’inférence, oui : seuls 3,8B paramètres (8 experts sur 128) sont activés par token.

Le modèle charge bien 26B en mémoire, mais le coût de calcul par token correspond à un modèle de 3,8B.

C’est ce qui explique sa rapidité et son efficacité énergétique.

Puis-je utiliser Gemma 4 pour une application commerciale sans payer Google ?

Oui.

Apache 2.0 n’impose aucune redevance ni restriction commerciale.

Vous pouvez intégrer Gemma 4 dans un produit commercial, le modifier, le fine-tuner et le redistribuer sans aucun accord préalable avec Google.

Gemma 4 respecte-t-il le RGPD mieux que les APIs cloud ?

Un déploiement local ou on-premise de Gemma 4 signifie que vos données ne quittent jamais votre infrastructure.

C’est intrinsèquement plus simple à justifier dans une analyse d’impact RGPD qu’un transfert vers des serveurs aux États-Unis, quel que soit le fournisseur cloud.

Gemma 4 représente-t-il une menace sérieuse pour Mistral ?

Sur les benchmarks techniques et la polyvalence, Gemma 4 26B MoE surpasse Mistral Small 4 sur la plupart des dimensions.

Mistral conserve des avantages stratégiques : ancrage européen, équipes locales, pertinence pour les marchés publics français et européens.

Les deux ont leur place selon le contexte.

Gemma 4 supporte-t-il l’audio et la vidéo nativement ?

Les modèles E2B et E4B supportent texte, image, audio et vidéo nativement.

Le 26B MoE et le 31B dense se concentrent sur texte et image.

C’est la première gamme Google à intégrer l’audio et la vidéo sur des modèles conçus pour tourner sur smartphone.

Comment Gemma 4 gère-t-il 140 langues ?

Le support multilingue est intégré à l’entraînement, pas ajouté en post-traitement.

Cela signifie une meilleure cohérence et nuance dans les langues autres que l’anglais, y compris le français.

Les évaluations initiales confirment un niveau FR nettement supérieur à Gemma 3.

Gemma 4 : Google passe à Apache 2.0 et redistribue les cartes de l’IA open source

Gemma 4 en 30 secondes

Quatre modèles du smartphone au datacenter

Le vrai game-changer Apache 2.0

Ce que change concrètement la licence Apache 2.0

La fin du faux open source Google

Performances et benchmarks au crible

Des bonds qui méritent attention

Tableau comparatif avec la concurrence

Le ratio intelligence/paramètre : pourquoi le MoE change tout

Stratégie Google : Gemini vend le cloud, Gemma vend l’adoption

Les capacités agentiques : function calling et JSON natifs

Et pour les Français ? Souveraineté et Mistral

Comment tester Gemma 4 dès maintenant

Notre verdict

FAQ

Articles Similaires

ChatGPT veut devenir votre OS : la super app OpenAI qui change tout

ARC-AGI-3 : pourquoi toutes les IA échouent au nouveau test d’intelligence de François Chollet

Prêt à créer votre système IA ?

Encore quelques questions ?