Em 2 de abril de 2026, o Google DeepMind lançou silenciosamente o que provavelmente é o lançamento de modelo open-weight mais consequente do ano. Sem avisos de segurança. Sem acesso restrito. Sem licença restritiva. Apenas pesos, Apache 2.0 e uma folha de benchmarks que deveria envergonhar a maioria dos fornecedores proprietários.

Conheça o Gemma 4 — uma família de quatro modelos que vai de um modelo de 2,3B que roda no seu telefone até um modelo denso de 31B que ocupa o #3 entre todos os modelos abertos no leaderboard do Arena, superando concorrentes com mais de 400 bilhões de parâmetros.

O que é o Gemma 4?

O Gemma 4 destila insights da pesquisa proprietária Gemini 3 do Google em uma família de modelos completamente aberta e deployável localmente. O princípio de design declarado: maximizar inteligência por parâmetro em vez de escala bruta.

Três coisas tornam o Gemma 4 estruturalmente diferente das versões anteriores:

Licença Apache 2.0 — Sem limites de usuários ativos mensais. Sem restrições de política de uso. Sem royalties.
Multimodalidade nativa em todos os tamanhos — Todos os modelos processam texto e imagens nativamente. Os dois menores também lidam com áudio.
Suporte do ecossistema no dia 0 — Ollama, llama.cpp, LM Studio, vLLM e Hugging Face Transformers, todos suportados no dia do lançamento.

Os quatro modelos

Diagrama comparativo das variantes do modelo Gemma 4 — A família de quatro modelos do Gemma 4 abrange do compatível com telefone ao nível workstation — todos nativamente multimodais.

O 26B MoE é a escolha surpresa. No tempo de inferência, ele ativa apenas 4B parâmetros — então roda com o footprint de memória de um modelo pequeno enquanto alcança qualidade próxima ao 31B. Um desenvolvedor no Hacker News reportou rodar o 26B Q8_0 em um M2 Ultra a 300 tokens por segundo com entrada de vídeo em tempo real.

Benchmarks

MMLU Pro: 85,2% (modelo 31B)
AIME 2026 Matemática: 89,2%
LiveCodeBench Coding: 80,0%
Codeforces ELO: 2150
Arena Leaderboard: #3 modelo aberto (supera modelos com 400B+ parâmetros)

Como executar o Gemma 4 localmente

Método 1: Ollama (Recomendado para Desenvolvedores)

# Instalar (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# Baixar variantes do modelo
ollama pull gemma4:e4b        # Melhor ponto de partida (~3 GB)
ollama pull gemma4:e2b        # Opção mais leve (~1,5 GB)
ollama pull gemma4:26b        # Raciocínio potente (~16 GB)
ollama pull gemma4:31b-it     # Qualidade máxima (~18 GB)

# Iniciar chat
ollama run gemma4:e4b

# Chamada de API compatível com OpenAI
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma4:e4b", "messages": [{"role": "user", "content": "Olá"}]}'

Método 2: LM Studio (Melhor para Usuários Não Técnicos)

Baixar de lmstudio.ai
Abrir app → aba "Discover" → pesquisar gemma-4
Baixar variantes GGUF pré-quantizadas do Unsloth
Clicar em "Chat" para começar imediatamente

Método 3: llama.cpp

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Método 4: MLX para Apple Silicon

pip install -U mlx-vlm
mlx_vlm.generate \
  --model "mlx-community/gemma-4-26b-a4b-it-4bit" \
  --prompt "Explique esta função"

O que a comunidade está dizendo

A licença Apache 2.0 foi o detalhe mais celebrado. A eficiência do 26B MoE — "#6 modelo aberto com apenas 4B parâmetros ativos" — impressionou os engenheiros. O suporte do ecossistema no dia 0 foi notado como um ponto de virada na coordenação OSS do Google.

Casos de uso para equipes de produto e engenharia

Assistente de código local — Sem latência de nuvem, dentro de IDEs
Processamento de documentos privacy-first — Contexto de 128K–256K
Fluxos de trabalho agênticos sem dependência de nuvem — Function calling nativo
Fine-tuning em dados proprietários — Apache 2.0 permite deploy comercial

# Início rápido: dois comandos
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b

Todos os pesos dos modelos estão disponíveis no Hugging Face sob Apache 2.0. O Gemma 4 também está acessível via Google Cloud Vertex AI.

Gemma 4: O modelo open-weight do Google e como executá-lo localmente