AI・開発

Gemma 4:GoogleのOpen-Weightモデルとローカルで実行する方法

Google DeepMindがGemma 4をリリース — Apache 2.0、ネイティブマルチモーダル、400B+のライバルを超える31Bモデルで、ラップトップで動作します。完全ガイド:何であるか、ベンチマーク、そして数分でローカルLLMを実行する方法。

Alex Rivera

セキュリティ・AI研究リード

2026年4月9日 14分で読める
Gemma 4:GoogleのOpen-Weightモデルとローカルで実行する方法

2026年4月2日、Google DeepMindは今年最も重要なオープンウェイトモデルリリースを静かに公開しました。安全上の注意書きなし。アクセス制限なし。制限的なライセンスなし。ただ、ウェイト、Apache 2.0、そとんどのプロプライエタリベンダーを恥ずかしめるベンチマーク表だけです。

Gemma 4をご紹介します — スマートフォンで動作する2.3Bモデルから、Arenaリーダーボードで全オープンモデル中3位にランクされ、4000億以上のパラメータを持つ競合他社を上回る31B密モデルまで、4つのモデルファミリーです。

Gemma 4とは何か?

Gemma 4は、Googleの独自Gemini 3研究からの洞察を、完全にオープンでローカルにデプロイ可能なモデルファミリーに凝縮したものです。設計原則:生の規模よりもパラメータ当たりの知能を最大化する。

Gemma 4を以前のGemmaリリースと構造的に異なるものにする3つのポイント:

  1. Apache 2.0ライセンス — 月間アクティブユーザー制限なし。使用ポリシーの制限なし。ロイヤリティなし。
  2. 全サイズにわたるネイティブマルチモダリティ — すべてのモデルがテキストと画像を処理。2つの小型モデルはオーディオも対応。
  3. Day-0エコシステムサポート — Ollama、llama.cpp、LM Studio、vLLM、Hugging Face Transformersがすべてリリース当日にサポート。

4つのモデル

Gemma 4モデルバリアントの比較図
Gemma 4の4モデルファミリーは、スマートフォン対応からワークステーション級まで — すべてネイティブマルチモーダル。

26B MoEは隠れた逸品です。推論時に4Bパラメータしかアクティブにしないため、小型モデルのメモリフットプリントで31Bに近い品質を達成します。Hacker Newsのある開発者は、M2 Ultraで26B Q8_0をリアルタイムビデオ入力で毎秒300トークンで実行したと報告しました。

ベンチマーク

  • MMLU Pro: 85.2%(31Bモデル)
  • AIME 2026数学: 89.2%
  • LiveCodeBenchコーディング: 80.0%
  • Codeforces ELO: 2150
  • Arenaリーダーボード: オープンモデル第3位(400B+パラメータのモデルを超える)

Gemma 4をローカルで実行する方法

方法1:Ollama(開発者向け推奨)

# インストール(macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# モデルバリアントをダウンロード
ollama pull gemma4:e4b        # 最良の出発点(~3 GB)
ollama pull gemma4:e2b        # 最軽量オプション(~1.5 GB)
ollama pull gemma4:26b        # 高品質推論(~16 GB)
ollama pull gemma4:31b-it     # 最高品質(~18 GB)

# チャット開始
ollama run gemma4:e4b

方法2:LM Studio(非技術者向け最良)

  1. lmstudio.aiからダウンロード
  2. アプリを開く → "Discover"タブ → gemma-4を検索
  3. Unsloth事前量子化GGUFバリアントをダウンロード
  4. "Chat"をクリックして即座に開始

方法3:llama.cpp

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

方法4:Apple Silicon向けMLX

pip install -U mlx-vlm
mlx_vlm.generate \
  --model "mlx-community/gemma-4-26b-a4b-it-4bit" \
  --prompt "この関数を説明してください"

コミュニティの反応

Apache 2.0ライセンスが最も称賛された点でした。26B MoEの効率性 — 「4Bアクティブパラメータのみで第6位オープンモデル」 — はエンジニアを魅了しました。Day-0のエコシステムサポートは、GoogleのOSS調整の転換点として注目されました。

プロダクト・エンジニアリングチームへの活用

  • ローカルコードアシスタント — クラウドのレイテンシなしにIDE内で動作
  • プライバシーファーストのドキュメント処理 — 128K〜256Kコンテキスト
  • クラウド依存なしのエージェント的ワークフロー — ネイティブファンクションコール
  • 独自データでのファインチューニング — Apache 2.0で商用デプロイが可能
# クイックスタート:2つのコマンド
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b

すべてのモデルウェイトはApache 2.0の下でHugging Faceで利用可能です。Gemma 4はGoogle Cloud Vertex AIを通じても利用可能です。