Le 2 avril 2026, Google a publié Gemma 4 avec un changement qui a fait plus de bruit que les benchmarks eux-mêmes : la licence passe à Apache 2.0.
Ce détail technique est en réalité une décision stratégique majeure.
Depuis 2024, les modèles Gemma étaient distribués sous une licence permissive maison, avec des restrictions sur la redistribution commerciale qui maintenaient Google dans une position de contrôle.
Apache 2.0, c’est la pleine propriété : tu télécharges, tu modifies, tu redistribues, tu commercialises.
Sans redevance.
Sans demander la permission.
Ce qu’il faut retenir :
- Apache 2.0 transforme Gemma 4 en vrai open source : usage commercial libre, fork sans risque, déploiement on-premise RGPD-compliant
- Le modèle 26B MoE n’active que 3,8B paramètres à l’inférence : des performances proches du 31B dense pour une fraction des ressources GPU
- AIME 89,2% et Codeforces ELO 2150 pour le 31B : un bond générationnel par rapport à Gemma 3, pas une évolution incrémentale
- Pour les PME françaises : un 26B quantisé tourne sur RTX 4090 à moins de 2 000 euros, sans abonnement cloud, sans envoyer de données aux États-Unis
- La stratégie Google est claire : Gemini pour le cloud payant, Gemma pour l’edge et l’open source — les deux se renforcent mutuellement
- Mistral reste pertinent pour les acteurs qui misent sur la souveraineté européenne, mais Gemma 4 redéfinit le rapport performance/coût du segment open source
Gemma 4 en 30 secondes
Quatre modèles, une architecture multimodale native, une licence Apache 2.0 sans restriction commerciale.
Gemma 4 marque la première fois que Google distribue un modèle de cette envergure sous Apache 2.0, sans clause restrictive cachée dans les conditions générales.
Les chiffres d’adoption Gemma 3 parlent d’eux-mêmes : 400 millions de téléchargements et 100 000 variantes créées par la communauté sur Hugging Face.
Ces chiffres révèlent quelque chose d’important : un modèle open source de qualité génère une communauté indépendante que Google ne contrôle plus, et dont il tire un bénéfice direct en termes de réputation et d’adoption.
Avec Gemma 4, Google parie que l’ouverture totale accélère l’adoption mieux que toute restriction de licence.
Quatre modèles du smartphone au datacenter
La gamme Gemma 4 couvre un spectre matériel plus large qu’aucun modèle open source ne l’avait fait jusqu’ici.
| Modèle | Paramètres totaux / actifs | Architecture | Fenêtre de contexte | Matériel cible |
|---|---|---|---|---|
| E2B | ~2B / ~2B | Dense | 128K tokens | Smartphones, Raspberry Pi |
| E4B | ~4B / ~4B | Dense | 128K tokens | Smartphones haut de gamme, Jetson Nano |
| 26B MoE (A4B) | 26B / 3,8B | MoE 128 experts | 256K tokens | GPU grand public (quantisé) |
| 31B dense | 31B / 31B | Dense | 256K tokens | GPU/CPU haut de gamme |
E2B et E4B ciblent explicitement les appareils mobiles et l’edge computing : traduction hors ligne, génération de code sur appareil, applications de santé où les données ne doivent pas quitter le terminal.
Tous les modèles sont nativement multimodaux : texte, image, audio et vidéo sur les petits modèles, texte et image sur les grands.
Le support de 140 langues est intégré, ce qui positionne Gemma 4 comme un candidat sérieux pour les applications internationales sans traduction intermédiaire.
Passer d’un modèle de texte à un modèle qui comprend image, audio et vidéo sur un smartphone, c’est la différence entre un assistant qui lit et un assistant qui perçoit.
Le vrai game-changer Apache 2.0
Les licences IA sont rarement passionnantes à analyser, sauf quand elles changent quelque chose de fondamental.
Là, c’est le cas.
Ce que change concrètement la licence Apache 2.0
L’ancienne licence Gemma autorisait un usage personnel et de recherche, mais bridait la redistribution commerciale : des catégories d’usage étaient explicitement approuvées, d’autres non.
Résultat : de nombreuses entreprises évitaient Gemma par précaution juridique, même pour des usages qui auraient probablement été acceptés.
Apache 2.0 efface cette ambiguïté : usage commercial libre, modification et redistribution sans restriction, inclusion obligatoire de la licence et d’une attribution, protection automatique des brevets pour les contributeurs.
Pour un service informatique ou un juriste d’entreprise, c’est la différence entre « probablement OK » et « certifié OK ».
L’analogie la plus juste : passer du leasing à la pleine propriété du véhicule.
Tu peux le modifier, le revendre, l’adapter en service commercial, sans demander la permission au constructeur.
La fin du faux open source Google
Google a une longue histoire de modèles « ouverts » avec des restrictions qui les rendaient moins libres que leurs concurrents.
Gemma 1 et 2 étaient utilisables, mais pas comparables à la licence de Meta Llama, elle-même critiquable mais plus permissive commercialement.
Avec Apache 2.0, Google se place sur le même terrain que Mistral et Qwen : des modèles que les entreprises peuvent réellement adopter sans risque juridique résiduel.
C’est aussi un signal envoyé à la communauté Hugging Face : Gemma 4 est conçu pour être forké, quantisé, fine-tuné, intégré dans des produits commerciaux sans friction.
Une licence Apache 2.0 sur un modèle de cette taille, c’est Google qui dit à toute la communauté open source : « Faites-en ce que vous voulez, on gagne à chaque fois que vous l’utilisez. »
Performances et benchmarks au crible
Les chiffres publiés par Google sont impressionnants.
La question pertinente : comprendre ce qu’ils signifient dans la pratique.
Des bonds qui méritent attention
Sur AIME 2026 (compétition de mathématiques de haut niveau) : Gemma 3 27B obtenait 20,8%, Gemma 4 31B monte à 89,2%.
Ce n’est pas une amélioration incrémentale : c’est un changement de catégorie.
Sur Codeforces (compétition de programmation), le score ELO passe de 110 à 2 150 pour le 31B, soit un niveau de compétition comparable à des développeurs professionnels confirmés.
| Benchmark | G4 31B | G4 26B MoE | G4 E4B | G3 27B |
|---|---|---|---|---|
| MMLU-Pro | 85,2% | 82,6% | 69,4% | 67,6% |
| AIME 2026 | 89,2% | 88,3% | 42,5% | 20,8% |
| GPQA Diamond | 84,3% | 82,3% | 58,6% | 42,4% |
| LiveCodeBench v6 | 80,0% | 77,1% | 52,0% | 29,1% |
| Codeforces ELO | 2 150 | 1 718 | 940 | 110 |
Limites à garder en tête : ces benchmarks sont auto-rapportés par Google.
La communauté Hacker News a immédiatement lancé ses propres évaluations, et les résultats préliminaires confirment la hiérarchie, sans toujours atteindre exactement les mêmes chiffres sur des tâches réelles.
Le 26B MoE à 88,3% sur AIME avec seulement 3,8B paramètres actifs est le résultat le plus frappant : il bat des modèles denses bien plus lourds à l’inférence.
Tableau comparatif avec la concurrence
| Modèle | Licence | Multimodal natif | On-device | Contexte max | MoE | MMLU-Pro (approx.) |
|---|---|---|---|---|---|---|
| Gemma 4 31B | Apache 2.0 | Oui | Oui (E2B/E4B) | 256K | Oui (26B A4B) | 85,2% |
| Llama 4 | Llama License | Oui | Partiel | 128K | Oui | ~84% |
| Qwen 3.5 | Apache 2.0 | Partiel | Non | 128K | Oui | ~86,7% |
| Mistral Small 4 | Apache 2.0 | Non | Non | 32K | Oui (Mixtral) | Inférieur |
Gemma 4 domine sur trois dimensions simultanément : licence libre, multimodalité native, déploiement edge.
Qwen 3.5 le dépasse légèrement sur les benchmarks purs, mais sans capacité on-device et avec un support multimodal partiel.
Le ratio intelligence/paramètre : pourquoi le MoE change tout
Le Mixture of Experts existe depuis plusieurs années, et Gemma 4 en fait l’usage le plus efficace à ce niveau de performance.
Le principe : le modèle 26B total contient 128 experts spécialisés, mais en active seulement 8 en moyenne par token traité, soit environ 3,8B paramètres actifs à chaque inférence.
L’analogie la plus claire : imaginer un cabinet de 128 consultants, dont seulement 8 sont convoqués pour chaque question, selon leur spécialité.
Le résultat : des performances proches du 31B dense, avec une empreinte mémoire et une vitesse d’inférence correspondant à un modèle de 3,8B.
Sur Arena AI, le 26B MoE se classe parmi les 6 meilleurs modèles open source, devant des modèles denses deux à trois fois plus lourds à faire tourner.
Un MoE bien conçu ne fait pas que réduire les coûts : il change la catégorie de matériel nécessaire pour obtenir des performances frontier.
Stratégie Google : Gemini vend le cloud, Gemma vend l’adoption
La question que tout le monde se pose : pourquoi Google distribue-t-il gratuitement un modèle qui concurrence ses propres APIs Gemini ?
La réponse tient en une logique plateforme.
Gemini reste propriétaire, accessible par abonnement ou API payante, optimisé pour les tâches lourdes nécessitant la puissance des datacenters Google.
Gemma couvre l’edge, le local, le on-premise : les cas d’usage où envoyer des données dans le cloud est impossible (conformité RGPD, latence, coût, hors-connexion).
Les deux gammes partagent la même recherche fondamentale : Gemini Nano 4 sur Android et les puces Pixel utilise la même base que Gemma E2B/E4B.
Chaque développeur qui adopte Gemma apprend les patterns Google, s’habitue aux APIs et aux outils de la plateforme, et devient un candidat naturel pour Gemini cloud quand ses besoins dépassent ce que le local peut faire.
C’est la stratégie du cheval de Troie Android : dominer l’edge pour être présent partout, y compris là où le cloud ne peut pas aller.
Les capacités agentiques : function calling et JSON natifs
Gemma 4 intègre nativement le function calling, la génération de JSON structuré et la gestion de system prompts complexes.
Ces trois capacités forment les briques de base des agents IA autonomes : appeler des fonctions externes, produire des sorties directement exploitables par du code, maintenir un contexte long.
Un modèle avec une fenêtre de 256K tokens peut orchestrer des workflows multi-étapes sans infrastructure supplémentaire.
Des intégrations comme l’ADK Java pour agents (Android Developer Kit) montrent que Google prépare Gemma 4 à être le moteur d’agents locaux sur Android : des assistants qui agissent sur votre téléphone sans jamais envoyer de requêtes à distance.
Pour les développeurs francophones, le 31B est clairement le choix agentique si le matériel le permet.
Le 26B MoE est le meilleur compromis performance/accessibilité pour la grande majorité des cas.
Et pour les Français ? Souveraineté et Mistral
La question de la souveraineté numérique est devenue centrale pour les entreprises françaises et européennes depuis le RGPD.
Gemma 4 sous Apache 2.0 répond à cette contrainte d’une façon que les APIs cloud ne peuvent pas : les données ne quittent jamais l’infrastructure de l’entreprise.
Un modèle 26B MoE quantisé en INT4 tourne sur une RTX 4090, une carte disponible en configuration de travail pour moins de 2 000 euros.
Pour une startup ou une PME traitant des données médicales, juridiques ou financières, c’est la différence entre un déploiement IA impossible (données sensibles, RGPD) et un déploiement immédiatement réalisable.
Mistral reste pertinent pour les acteurs qui veulent soutenir un champion européen, et son ancrage français peut peser dans les décisions d’achat publiques ou para-publiques.
Sur le plan technique, Mistral Small 4 ne rivalise pas avec Gemma 4 26B MoE sur les benchmarks généraux, le multimodal ou la fenêtre de contexte.
Les deux peuvent coexister dans un portefeuille technologique : Gemma 4 pour les tâches intensives en raisonnement et multimodal, Mistral pour les cas où la localité géographique des serveurs et le soutien à la filière européenne priment.
Comment tester Gemma 4 dès maintenant
Le chemin le plus rapide pour tester localement passe par Ollama, disponible sur Mac, Linux et Windows.
Trois commandes suffisent :
- Installation :
brew install --cask ollama(ou téléchargement depuis ollama.com) - Téléchargement :
ollama pull gemma4:26b(choisir e2b, e4b, ou 31b selon le matériel) - Premier test :
ollama run gemma4:26b "Explique le MoE en une phrase"
Le E4B convient à tout Mac récent avec Apple Silicon, le 26B MoE demande 16 Go de VRAM minimum en quantisé, le 31B dense nécessite 24 Go ou plus.
Des intégrations directes existent dans LM Studio, Jan et les frameworks Python habituels (LangChain, LlamaIndex) via les endpoints compatibles OpenAI d’Ollama.
Le blog Anthem suivra l’adoption de Gemma 4 dans la communauté francophone : retours d’expérience, cas d’usage réels, comparaisons terrain.
Si vous testez Gemma 4 localement, partagez votre retour en commentaire : quel modèle, quel matériel, quel cas d’usage.
Notre verdict
Gemma 4 n’est pas le meilleur modèle open source sur chaque benchmark individuel.
C’est le modèle open source le plus complet de 2026 : la seule gamme à couvrir simultanément le smartphone, le GPU grand public et le serveur, avec une licence sans ambiguïté, une multimodalité native et des capacités agentiques intégrées.
Le bond de Gemma 3 à Gemma 4 est le plus important que Google ait jamais réalisé sur une génération de modèles ouverts.
Pour les développeurs et entreprises français, l’équation est simple : Apache 2.0 + on-premise + 256K de contexte + multimodal natif résout des problèmes de conformité qui bloquaient des projets entiers.
La question centrale n’est plus « peut-on utiliser Gemma 4 ? » : c’est « pour quels projets choisir quel modèle de la gamme ? »
FAQ
Gemma 4 est-il réellement open source avec Apache 2.0 ?
Oui : Apache 2.0 autorise l’usage commercial, la modification et la redistribution sans restriction, avec seulement l’obligation d’inclure la licence et une attribution.
C’est un standard reconnu et compris par les équipes juridiques d’entreprise.
Quelle différence entre Gemma 4 et Gemini ?
Gemini est le modèle propriétaire de Google, accessible via API payante et cloud.
Gemma 4 est open source, conçu pour tourner localement ou on-premise.
Les deux partagent la même recherche fondamentale mais s’adressent à des cas d’usage distincts.
Quel modèle Gemma 4 choisir selon mon matériel ?
E2B/E4B : smartphones et appareils edge. 26B MoE : GPU grand public avec 16 Go VRAM minimum (RTX 3090/4090). 31B dense : serveurs ou configurations 24+ Go VRAM pour les tâches les plus exigeantes.
Gemma 4 est-il meilleur que Llama 4 ?
Les deux sont compétitifs sur les benchmarks généraux.
Gemma 4 gagne sur le déploiement on-device (E2B/E4B), la fenêtre de contexte 256K vs 128K, la multimodalité native et la clarté de la licence Apache 2.0.
Llama 4 conserve des avantages sur plusieurs benchmarks de raisonnement et bénéficie d’une communauté plus mature.
Le 26B MoE consomme-t-il aussi peu que 3,8B paramètres à l’inférence ?
À l’inférence, oui : seuls 3,8B paramètres (8 experts sur 128) sont activés par token.
Le modèle charge bien 26B en mémoire, mais le coût de calcul par token correspond à un modèle de 3,8B.
C’est ce qui explique sa rapidité et son efficacité énergétique.
Puis-je utiliser Gemma 4 pour une application commerciale sans payer Google ?
Oui.
Apache 2.0 n’impose aucune redevance ni restriction commerciale.
Vous pouvez intégrer Gemma 4 dans un produit commercial, le modifier, le fine-tuner et le redistribuer sans aucun accord préalable avec Google.
Gemma 4 respecte-t-il le RGPD mieux que les APIs cloud ?
Un déploiement local ou on-premise de Gemma 4 signifie que vos données ne quittent jamais votre infrastructure.
C’est intrinsèquement plus simple à justifier dans une analyse d’impact RGPD qu’un transfert vers des serveurs aux États-Unis, quel que soit le fournisseur cloud.
Gemma 4 représente-t-il une menace sérieuse pour Mistral ?
Sur les benchmarks techniques et la polyvalence, Gemma 4 26B MoE surpasse Mistral Small 4 sur la plupart des dimensions.
Mistral conserve des avantages stratégiques : ancrage européen, équipes locales, pertinence pour les marchés publics français et européens.
Les deux ont leur place selon le contexte.
Gemma 4 supporte-t-il l’audio et la vidéo nativement ?
Les modèles E2B et E4B supportent texte, image, audio et vidéo nativement.
Le 26B MoE et le 31B dense se concentrent sur texte et image.
C’est la première gamme Google à intégrer l’audio et la vidéo sur des modèles conçus pour tourner sur smartphone.
Comment Gemma 4 gère-t-il 140 langues ?
Le support multilingue est intégré à l’entraînement, pas ajouté en post-traitement.
Cela signifie une meilleure cohérence et nuance dans les langues autres que l’anglais, y compris le français.
Les évaluations initiales confirment un niveau FR nettement supérieur à Gemma 3.
Articles Similaires
ChatGPT veut devenir votre OS : la super app OpenAI qui change tout
OpenAI ne veut plus que vous utilisiez ChatGPT comme un simple chatbot. L’entreprise fusionne ChatGPT, Codex et Atlas en une seule application desktop : une super app qui ambitionne de…
ARC-AGI-3 : pourquoi toutes les IA échouent au nouveau test d’intelligence de François Chollet
La semaine où Jensen Huang, PDG de Nvidia, déclarait l’AGI « imminente », les meilleurs modèles IA du monde tentaient discrètement un nouveau benchmark créé par François Chollet. Résultat : Gemini 3.1…