Google hat am 2. April 2026 offiziell Gemma 4 veröffentlicht, als eines der bisher leistungsstärksten Open-Source-Modelle. Gemma 4 hat bedeutende Durchbrüche bei nativen Funktionsaufrufen, Agent-Workflows und multimodaler Wahrnehmung erzielt und verwendet eine geschäftsfreundliche Apache-2.0-Lizenz, die Entwicklern und Unternehmen weltweit bisher ungeahnte Freiheiten und Flexibilität bietet.
Was ist Gemma 4? Die wichtigsten Kern-Features auf einen Blick
Gemma 4 ist eine Open-Source-Großmodellserie für Large Language Models von Google DeepMind, die mit der Gemini-Serie technische Gemeinsamkeiten teilt. Zu den zentralen Highlights gehören:
Fortgeschrittene Fähigkeiten zum Schlussfolgern: Unterstützt mehrstufige Planung und tiefes logisches Schlussfolgern und übertrifft bei Tests zu Mathematik und Befolgung von Anweisungen deutlich gleichklassige Open-Source-Modelle.
Nativer Agent-Workflow: Integriert Funktionsaufrufe, strukturierte JSON-Ausgaben und Unterstützung für Systemanweisungen, sodass es direkt autonome KI-Agenten und die Ausführung mehrstufiger Aufgaben antreiben kann.
Lokale Bereitstellung: Die E2B- und E4B-Versionen sind speziell für Geräte wie Mobiltelefone optimiert und können vollständig offline laufen.
Umfassende multimodale Unterstützung: Alle Versionen unterstützen nativen Bild- und Video-Input; E2B und E4B unterstützen zusätzlich nativen Audio-Input.
Ultra-langer Kontextfensterbereich: Edge-Modelle unterstützen 128K token, während größere Modelle bis zu 256K token erreichen. So kann man im selben Prompt die gesamte Code-Repository-Struktur oder lange Dokumente übergeben.
Codegenerierung in hoher Qualität: Unterstützt das Offline-Schreiben von Code und kann den eigenen Arbeitsplatz zu einem lokal priorisierten KI-Programmierassistenten machen.
Training in über 140 Sprachen: Unterstützt weltweit mehr als 140 Sprachen und hilft Entwicklern dabei, mehrsprachige Anwendungen zu entwickeln, um internationale Nutzer zu bedienen.
Vier Modellvarianten, maximaler Support für alle Anwendungsszenarien
Gemma 4 wird in vier Versionen angeboten und ist für unterschiedliche Hardware-Umgebungen und Anwendungsfälle optimiert:
Effective 2B (E2B): Speziell für mobile Endgeräte und IoT entwickelt, unterstützt 128K-Kontextfenster und nativen Audio-Input und kann vollständig offline auf Edge-Geräten wie Android-Mobiltelefonen und Raspberry Pi betrieben werden.
Effective 4B (E4B): Ebenfalls für Edge-Setups optimiert, verfügt über Multimodal-Fähigkeiten und erreicht eine herausragende Balance zwischen Inferenzleistung und Speicherverbrauch.
26B Mixture of Experts (MoE): Aktiviert beim Schlussfolgern nur 3,8 Milliarden Parameter, ermöglicht damit hochschnelles Schlussfolgern mit sehr geringer Latenz und eignet sich für lokale Workstations, bei denen der Durchsatz im Vordergrund steht.
31B Dense: Die Flaggschiff-Version, die in der Arena-AI-Text-Rangliste auf Platz drei liegt, liefert die höchste Ausgabequalität und kann auf einer einzelnen 80GB NVIDIA H100 GPU vollständig betrieben werden.
Die quantisierten Versionen von 26B MoE und 31B Dense lassen sich nativen Ausführen auf Consumer-Grafikkarten, sodass starke KI-Inferenzfähigkeiten wirklich für einzelne Entwickler auf deren Desktop zugänglich werden.
Wichtiger Durchbruch beim lokalen Inferenzbetrieb: Weg mit der Abhängigkeit von APIs
Eines der am stärksten beachteten Merkmale von Gemma 4 ist die Betonung der Fähigkeit zum lokalen (On-device) Inferenzbetrieb. Die E2B- und E4B-Modelle sind für maximalen Rechen- und Speichereffizienz konzipiert und können auf Edge-Geräten wie Mobiltelefonen, Raspberry Pi und NVIDIA Jetson Orin Nano mit nahezu keiner Latenz laufen.
Das hat große Auswirkungen auf Entwickler: In der Vergangenheit mussten beim Aufruf von Cloud-AI-APIs Kosten pro Anfrage getragen werden, außerdem gab es Risiken durch Netzwerklatenz und Datenschutz der Daten. Mit den lokalen Inferenzfähigkeiten von Gemma 4 können Entwickler das Modell auf eigener Hardware betreiben, senken die API-Aufrufkosten erheblich und genießen gleichzeitig vollständige Datenhoheit sowie Offline-Verfügbarkeit.
Google arbeitet außerdem eng mit dem Pixel-Team sowie Mobilhardware-Partnern wie Qualcomm und MediaTek zusammen, um sicherzustellen, dass E2B/E4B auf gängigen Android-Geräten die beste Leistung erreichen, und öffnet Android-Entwicklern AICore Developer Preview, damit die Integration von Gemini Nano 4 beim Entwickeln unterstützt wird.
Agent-Workflows mit KI stärken, native Funktionsaufrufe erhöhen die Effizienz
Auch bei Agent-Workflows (Agentic Workflows) unterstützt Gemma 4 nativen Support, was einer der deutlichsten Funktionssprünge gegenüber der vorherigen Generation ist. Das Modell unterstützt:
Nativer Funktionsaufruf (Function Calling): Das Modell kann direkt externe Tools und APIs aufrufen, um reale Operationen auszuführen, z. B. Datenbanken abfragen oder Drittanbieter-Dienste aufrufen.
Strukturierte JSON-Ausgabe: Stellt sicher, dass die Modell-Ausgaben einem bestimmten Format entsprechen, um eine nahtlose Integration mit Backend-Systemen zu erleichtern.
Nativer System-Befehl (System Instructions): Entwickler können das Verhalten des Modells auf Systemebene festlegen, sodass die Rollen-Einstellungen des KI-Agents stabil und konsistent bleiben.
Diese Fähigkeiten ermöglichen es Gemma 4, ein vielseitiger autonomer KI-Agent zu sein: Es kann nicht nur Fragen beantworten, sondern auch proaktiv mit Tools interagieren und mehrstufige Workflows automatisch ausführen.
Umfassendes Multimodal-Upgrade: Visuell, Audio, lange Texte – alles dabei
Alle Modellvarianten von Gemma 4 verfügen über native Multimodal-Fähigkeiten und erweitern die Palette der Aufgaben, die verarbeitet werden können, deutlich.
Bilder und Videos
Für das visuelle Verstehen unterstützen alle Modelle die native Verarbeitung von Bildern und Videos. Sie unterstützen variierende Auflösungen und zeigen starke Leistungen bei visuellen Aufgaben wie OCR (optische Zeichenerkennung) und dem Verständnis von Diagrammen.
Audio-Eingabe
Im Bereich Audio unterstützen E2B und E4B Edge-Modelle zusätzlich nativen Audio-Input. So kann man direkt Sprachrecognition und -verständnis durchführen, ohne zusätzliche Schritte zur Umwandlung von Sprache in Text.
Ultra-langer Kontext
Im Dokumentenbereich unterstützen Edge-Modelle 128K token-Kontextfenster. Größere Modelle bieten sogar bis zu 256K token, sodass Entwickler im selben Prompt das gesamte Code-Repository oder lange Dokumente übergeben können.
Offline-Codegenerierung
Unterstützt hochwertige Offline-Code-Erstellung. So kann man den eigenen Arbeitsplatz zu einem lokal priorisierten KI-Programmierassistenten machen.
140+ Sprachen unterstützen
Das Modell wird in über 140 Sprachen nativen trainiert und hilft Entwicklern dabei, Anwendungen zu bauen, die globale Nutzer bedienen.
Lizenzierung mit Apache 2.0: Meilenstein im Open-Source-Ökosystem
Gemma 4 wird mit der Apache-2.0-Lizenz veröffentlicht, einer der kommerziellkeitsfreundlichsten Lizenzen in der Open-Source-Community. Entwickler und Unternehmen können das Modell frei nutzen, ändern und verteilen. Ob Bereitstellung in einer privaten Infrastruktur, in einer Hybrid-Cloud-Umgebung oder in eingebetteten kommerziellen Produkten – es gibt keine zusätzlichen Einschränkungen.
Umfangreiche Unterstützung durch das Ökosystem
Gemma 4 erhält gleichzeitig umfassende Unterstützung von wichtigen Tools der Branche, darunter Hugging Face (Transformers, TRL, Transformers.js), Ollama, vLLM, llama.cpp, MLX, LM Studio, NVIDIA NIM und NeMo, Keras, Vertex AI und mehr.
Entwickler können Modellgewichte direkt über Hugging Face, Kaggle oder Ollama herunterladen und 31B- sowie 26B-MoE-Versionen online in Google AI Studio ausprobieren. Alternativ können sie die E2B- und E4B-Versionen über die Google AI Edge Gallery testen.
Für Unternehmen, die eine großskalige Bereitstellung benötigen, bietet Google Cloud vollständige Cloud-Lösungen, die Vertex AI, Cloud Run, GKE, Sovereign Cloud sowie TPU-beschleunigte Inferenzdienste umfassen und so die Beschränkung durch lokale Rechenleistung beseitigen.
Kosten senken, aber keine Fähigkeiten opfern: Gemma 4 als neue Wahl für Entwickler
Die Veröffentlichung von Gemma 4 ist ein Meilenstein für Open-Source-KI-Modelle. Als Enterprise-Tool mit Produktions-Deployments-Fähigkeit kann es auf Mobiltelefonen offline laufen, externe Tools aufrufen und Aufgaben autonom erledigen, lange Dokumente sowie multimodalen Input verarbeiten – und gleichzeitig ermöglicht es jedem, es frei zu nutzen.
Für Entwickler und Unternehmen, die ihre API-Aufrufkosten senken möchten und gleichzeitig KI-Fähigkeiten behalten wollen, bietet Gemma 4 einen äußerst attraktiven Weg.
Dieser Artikel, in dem Google das Open-Source-Modell Gemma 4 vorstellt: „Stärkung von Effizienz in KI-Agent-Workflows durch ‚lokale Inferenz‘“, erschien zuerst bei Chain News ABMedia.