Gemma 4: Googles Open-Weight-Kraftpaket und wie Sie es lokal ausführen
Google DeepMind hat Gemma 4 veröffentlicht — Apache 2.0, nativ multimodal, ein 31B-Modell, das 400B+-Konkurrenten schlägt, und es läuft auf einem Laptop. Der vollständige Leitfaden zu Was, Wie und Warum.
Alex Rivera
Leiter für Sicherheits- und KI-Forschung
Am 2. April 2026 veröffentlichte Google DeepMind die bedeutendste Open-Weight-Modell-Familie des Jahres. Keine Sicherheitsvorbehalte. Kein eingeschränkter Zugang. Keine restriktive Lizenz. Nur Gewichte, Apache 2.0 und eine Benchmark-Tabelle, die die meisten proprietären Anbieter beschämen sollte.
Willkommen bei Gemma 4 — einer Viermodell-Familie, die von einem 2,3B-Modell, das auf Ihrem Telefon läuft, bis hin zu einem 31B-Dense-Modell reicht, das auf dem Arena-Leaderboard Platz 3 unter allen offenen Modellen belegt und Konkurrenten mit über 400 Milliarden Parametern schlägt.
Was ist Gemma 4?
Gemma 4 destilliert Erkenntnisse aus Googles proprietärer Gemini-3-Forschung in eine vollständig offene, lokal einsetzbare Modellfamilie. Das erklärte Designprinzip: Intelligenz pro Parameter maximieren, anstatt auf rohe Skalierung zu setzen.
Drei Dinge machen Gemma 4 strukturell anders als frühere Gemma-Versionen:
- Apache-2.0-Lizenz — Keine monatlichen Nutzer-Obergrenzen. Keine Nutzungsrichtlinienbeschränkungen. Keine Lizenzgebühren.
- Native Multimodalität in allen Größen — Jedes Modell verarbeitet Text und Bilder von Anfang an. Die beiden kleineren Modelle verarbeiten auch Audio.
- Tag-0-Ökosystemunterstützung — Ollama, llama.cpp, LM Studio, vLLM und Hugging Face Transformers wurden alle am Veröffentlichungstag unterstützt.
Die vier Modelle
Das 26B MoE-Modell ist die Geheimwaffe. Zur Inferenzzeit aktiviert es nur 4B Parameter — daher läuft es mit dem Speicherbedarf eines kleinen Modells und erreicht dabei nahezu die Qualität des 31B-Modells.
Benchmark-Ergebnisse
- MMLU Pro: 85,2% (31B-Modell)
- AIME 2026 Mathematik: 89,2%
- LiveCodeBench Coding: 80,0%
- Codeforces ELO: 2150
- Arena-Leaderboard: #3 offenes Modell (übertrifft Modelle mit 400B+ Parametern)
Lokal ausführen: Vier Methoden
Methode 1: Ollama (Empfohlen für Entwickler)
# Installation (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Modellvarianten herunterladen
ollama pull gemma4:e4b # Bester Einstiegspunkt (~3 GB)
ollama pull gemma4:e2b # Leichteste Option (~1,5 GB)
ollama pull gemma4:26b # Starkes Reasoning (~16 GB)
ollama pull gemma4:31b-it # Maximale Qualität (~18 GB)
# Chat starten
ollama run gemma4:e4b
# OpenAI-kompatibler API-Aufruf
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "gemma4:e4b", "messages": [{"role": "user", "content": "Hallo"}]}'
Methode 2: LM Studio (Beste für Nicht-Techniker)
- Herunterladen von lmstudio.ai
- App öffnen → "Discover"-Tab → nach
gemma-4suchen - Vorquantisierte GGUF-Varianten herunterladen
- "Chat" für sofortigen Start klicken
Methode 3: llama.cpp
# Direkt von Hugging Face GGUF ausführen
llama-server -hf ggml-org/gemma-4-E2B-it-GGUF
Methode 4: MLX für Apple Silicon
pip install -U mlx-vlm
mlx_vlm.generate \
--model "mlx-community/gemma-4-26b-a4b-it-4bit" \
--prompt "Erkläre diese Funktion"
Was die Community sagt
Die Apache-2.0-Lizenz war der meistgelobte Aspekt. Frühere Gemma-Versionen hatten restriktive benutzerdefinierte Lizenzen. Die Effizienz des 26B MoE — "#6 offenes Modell bei nur 4B aktiven Parametern" — faszinierte Ingenieure. Die Tag-0-Ökosystemunterstützung wurde als Wendepunkt in Googles OSS-Koordination gewertet.
Anwendungsfälle für Produkt- und Engineering-Teams
- Lokaler Code-Assistent — Quantisierte Versionen laufen in IDEs ohne Cloud-Latenz
- Datenschutz-first Dokumentenverarbeitung — 128K–256K-Kontext deckt die meisten Dokumente ab
- Agentische Workflows ohne Cloud-Abhängigkeit — Natives Function Calling in allen Größen
- Fine-Tuning auf proprietären Daten — Apache 2.0 ermöglicht kommerzielles Deployment
# Schnellstart: Zwei Befehle
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b
Alle Modellgewichte sind auf Hugging Face unter Apache 2.0 verfügbar. Gemma 4 ist auch über Google Cloud Vertex AI zugänglich.