IA & Desenvolvimento

Gemma 4: O modelo open-weight do Google e como executá-lo localmente

O Google DeepMind acaba de lançar o Gemma 4 — Apache 2.0, nativamente multimodal, um modelo 31B que supera rivais de 400B+, e roda no seu laptop. O guia completo do que é, como funciona e como executar seu próprio LLM local em minutos.

Alex Rivera

Líder de Pesquisa em Segurança e IA

9 de abril de 2026 14 min de leitura
Gemma 4: O modelo open-weight do Google e como executá-lo localmente

Em 2 de abril de 2026, o Google DeepMind lançou silenciosamente o que provavelmente é o lançamento de modelo open-weight mais consequente do ano. Sem avisos de segurança. Sem acesso restrito. Sem licença restritiva. Apenas pesos, Apache 2.0 e uma folha de benchmarks que deveria envergonhar a maioria dos fornecedores proprietários.

Conheça o Gemma 4 — uma família de quatro modelos que vai de um modelo de 2,3B que roda no seu telefone até um modelo denso de 31B que ocupa o #3 entre todos os modelos abertos no leaderboard do Arena, superando concorrentes com mais de 400 bilhões de parâmetros.

O que é o Gemma 4?

O Gemma 4 destila insights da pesquisa proprietária Gemini 3 do Google em uma família de modelos completamente aberta e deployável localmente. O princípio de design declarado: maximizar inteligência por parâmetro em vez de escala bruta.

Três coisas tornam o Gemma 4 estruturalmente diferente das versões anteriores:

  1. Licença Apache 2.0 — Sem limites de usuários ativos mensais. Sem restrições de política de uso. Sem royalties.
  2. Multimodalidade nativa em todos os tamanhos — Todos os modelos processam texto e imagens nativamente. Os dois menores também lidam com áudio.
  3. Suporte do ecossistema no dia 0 — Ollama, llama.cpp, LM Studio, vLLM e Hugging Face Transformers, todos suportados no dia do lançamento.

Os quatro modelos

Diagrama comparativo das variantes do modelo Gemma 4
A família de quatro modelos do Gemma 4 abrange do compatível com telefone ao nível workstation — todos nativamente multimodais.

O 26B MoE é a escolha surpresa. No tempo de inferência, ele ativa apenas 4B parâmetros — então roda com o footprint de memória de um modelo pequeno enquanto alcança qualidade próxima ao 31B. Um desenvolvedor no Hacker News reportou rodar o 26B Q8_0 em um M2 Ultra a 300 tokens por segundo com entrada de vídeo em tempo real.

Benchmarks

  • MMLU Pro: 85,2% (modelo 31B)
  • AIME 2026 Matemática: 89,2%
  • LiveCodeBench Coding: 80,0%
  • Codeforces ELO: 2150
  • Arena Leaderboard: #3 modelo aberto (supera modelos com 400B+ parâmetros)

Como executar o Gemma 4 localmente

Método 1: Ollama (Recomendado para Desenvolvedores)

# Instalar (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# Baixar variantes do modelo
ollama pull gemma4:e4b        # Melhor ponto de partida (~3 GB)
ollama pull gemma4:e2b        # Opção mais leve (~1,5 GB)
ollama pull gemma4:26b        # Raciocínio potente (~16 GB)
ollama pull gemma4:31b-it     # Qualidade máxima (~18 GB)

# Iniciar chat
ollama run gemma4:e4b

# Chamada de API compatível com OpenAI
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma4:e4b", "messages": [{"role": "user", "content": "Olá"}]}'

Método 2: LM Studio (Melhor para Usuários Não Técnicos)

  1. Baixar de lmstudio.ai
  2. Abrir app → aba "Discover" → pesquisar gemma-4
  3. Baixar variantes GGUF pré-quantizadas do Unsloth
  4. Clicar em "Chat" para começar imediatamente

Método 3: llama.cpp

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Método 4: MLX para Apple Silicon

pip install -U mlx-vlm
mlx_vlm.generate \
  --model "mlx-community/gemma-4-26b-a4b-it-4bit" \
  --prompt "Explique esta função"

O que a comunidade está dizendo

A licença Apache 2.0 foi o detalhe mais celebrado. A eficiência do 26B MoE — "#6 modelo aberto com apenas 4B parâmetros ativos" — impressionou os engenheiros. O suporte do ecossistema no dia 0 foi notado como um ponto de virada na coordenação OSS do Google.

Casos de uso para equipes de produto e engenharia

  • Assistente de código local — Sem latência de nuvem, dentro de IDEs
  • Processamento de documentos privacy-first — Contexto de 128K–256K
  • Fluxos de trabalho agênticos sem dependência de nuvem — Function calling nativo
  • Fine-tuning em dados proprietários — Apache 2.0 permite deploy comercial
# Início rápido: dois comandos
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b

Todos os pesos dos modelos estão disponíveis no Hugging Face sob Apache 2.0. O Gemma 4 também está acessível via Google Cloud Vertex AI.