Comme chaque année, Google a mis à jour son modèle « ouvert » nommé Gemma avec une quatrième génération. Après la version 3 dévoilée en mars 2025, Gemma 4 offre, d’après son concepteur, le meilleur rapport performances/taille du moment. Si ce n’est pas le plus performant, il est bien plus capable que des modèles bien plus gros, ce qui reste intéressant pour bon nombre d’usages. En effet, les petits modèles peuvent tourner en local sur davantage d’ordinateurs, y compris des smartphones.
Gemma 4 est dérivé de Gemini 3 (ce serait trop simple d’aligner les valeurs, n’est-ce pas ?), le modèle phare de Google. Il s’agit d’un modèle ouvert, pas open-source pour autant : cela veut surtout dire qu’on peut le télécharger et le faire tourner en local, sans solliciter les serveurs de son créateur. Pour plus de performances, ou pour les plus grosses variantes, il est d’ailleurs aussi possible d’installer le LLM sur son propre serveur. Google distribue pour la première fois son modèle sous une licence Apache 2.0, très permissive. Elle autorise des utilisations dans de nombreux cadres, y compris pour un usage commercial.
Le nouveau modèle est distribué dès son lancement par de nombreuses voies : on peut tester Gemma 4 dans un navigateur grâce au Google AI Studio. On peut aussi le télécharger dans Ollama, LM Studio et il est présent sur Hugging Face, qui fait office de catalogue de référence. Quatre variantes sont proposées par Google, à choisir en fonction de son matériel et de ses besoins. Pour la mise en production à grande échelle, l’entreprise met en avant la possibilité de faire tourner les plus grosses variantes sur une seule carte graphique NVIDIA H100 80 Go, sans quantification nécessaire. À l’inverse, les plus petites peuvent fonctionner sur un smartphone ou même un Raspberry Pi.
Peu importe la taille choisie, Gemma 4 est un modèle multi-modal, ce qui veut dire qu’il ne se contente pas de générer du texte. Il peut travailler à partir d’images (et même d’audio sur les plus petits modèles), écrire du code et effectuer des tâches grâce aux agents (appel de fonctions, sortie structurée en JSON…). Il le fait avec des capacités de « réflexion » dont les progrès sont apparement significatifs par rapport aux précédentes générations. Le contexte, c’est-à-dire la quantité d’informations qu’il peut gérer à tout moment, est généreux : 128K ou 256K selon la taille du modèle.
Google note aussi que son entraînement a été effectué sur plus de 140 langues. Pour finir, la firme de Mountain View met en avant la sécurité de ce modèle ouvert, en soulignant qu’il reprend les mêmes protocoles que ceux mis en place pour Gemini. Gemma 4 est présenté comme une solution compatible avec le monde de l’entreprise, notamment pour cette raison.











