Gemma 4 vs Qwen 3.5 画像認識ベンチマーク — Apple Silicon ローカルVLM比較【2026年4月】

Apple Silicon Mac上でローカルVLM（Vision Language Model）の画像認識性能を比較しました。Google の最新モデル Gemma 4 26B（2026年4月リリース）と、Alibaba の Qwen 3.5 35B（2026年2月リリース）を、同一環境・同一画像で検証した結果をお伝えします。

注意事項（先にお読みください）
テスト環境
テスト画像
1. テストプロンプト
ベンチマーク1: vllm-mlx
ベンチマーク2: mlx-vlm CLI（思考モード制御あり）
品質評価
1. 総合スコア
回答例の比較
結論
関連リンク

注意事項（先にお読みください）

本ベンチマークはあくまでも一例として参考にしてください。以下の点にご留意ください：

Gemma 4：2026年4月リリースの最新モデル。MLX対応が出たばかり
Qwen 3.5：2026年2月リリース。MLX環境では比較的安定
vllm-mlx / mlx-vlm：最新モデルに最適化されているとは言えない状況でのテストです
一方のモデルが最適化されており、もう一方が最適化されていない可能性がある
モデルのバージョンアップやツールの更新で結果が変わる可能性がある

テスト環境

ハードウェア

項目	スペック
マシン	Mac Studio
チップ	Apple Macbook M1 Max
CPU	10コア（8 Performance + 2 Efficiency）
メモリ	64GB Unified Memory
OS	macOS Tahoe 26.4

ソフトウェア

項目	詳細
推論サーバー	vllm-mlx 0.2.7 / mlx-vlm 0.4.4
Python	3.10
MLX	最新版（pip install経由）

比較モデル

モデル	サイズ	量子化	リリース時期
Gemma 4 26B A4B	15GB	4bit	2026年4月
Qwen 3.5 35B A3B	19GB	4bit + FP16	2026年2月

※ 両モデルともMoE（Mixture of Experts）アーキテクチャを採用。Gemma 4は4B活性化、Qwen 3.5は3B活性化。

テスト画像

3種類の画像を使用しました。すべてiPhoneで撮影したHEIC形式をJPEGに変換しています。

画像	内容	ファイルサイズ	解像度
sample1.jpg	TV画面（NHK「時論公論」）	3.5MB	4032×3024
sample2.jpg	おせち料理	1.7MB	3024×4032
sample3.jpg	桜と城	5.3MB	3024×4032

1枚目の画像は横長の画像です。潰れてますが。。。

テストプロンプト

この画像が何であるか、詳しく説明してください。

ベンチマーク1: vllm-mlx

サーバー起動コマンド

# Gemma 4 26B
vllm-mlx serve ~/mlx-models/Gemma-4-26B-A4B-4bit \
  --port 3005 --mllm

# Qwen 3.5 35B（思考モードON）
vllm-mlx serve ~/mlx-models/Qwen3.5-35B-A3B-4bit-vlm-fp16 \
  --port 3005 --mllm --reasoning-parser qwen3

--mllm フラグはVLM（画像対応モデル）として起動するために必須です。

vllm-mlx 速度比較結果

詳細データ

画像	Gemma 4 26B			Qwen 3.5 35B
	時間	トークン	速度	時間	トークン	速度
sample1（TV画面）	14.4秒	560	38.8 tok/s	92.2秒	800	8.7 tok/s
sample2（おせち料理）	13.9秒	553	39.7 tok/s	92.7秒	800	8.6 tok/s
sample3（桜と城）	12.4秒	481	38.8 tok/s	92.8秒	800	8.6 tok/s
平均	13.6秒	531	39.1 tok/s	92.6秒	800	8.6 tok/s

Gemma 4 は Qwen 3.5 より約4.5倍高速という結果になりました。

念の為、追加でmlx-vlm CLIを使ったテストを行いました。

ベンチマーク2: mlx-vlm CLI（思考モード制御あり）

mlx-vlm CLIでは --enable-thinking フラグで思考モードを制御できます。両モデルで思考ON/OFFのベンチマークを実施しました。

実行コマンド

# 思考OFF
python3 -m mlx_vlm generate \
  --model ~/mlx-models/Gemma-4-26B-A4B-4bit \
  --image sample1.jpg \
  --prompt "この画像が何であるか、詳しく説明してください。" \
  --max-tokens 800 --temperature 0.7

# 思考ON
python3 -m mlx_vlm generate \
  --model ~/mlx-models/Gemma-4-26B-A4B-4bit \
  --image sample1.jpg \
  --prompt "この画像が何であるか、詳しく説明してください。" \
  --max-tokens 800 --temperature 1.0 --enable-thinking

mlx-vlm CLI 結果

モデル	思考モード	平均時間	生成速度	Prefill速度
Gemma 4 26B	OFF	20.6秒	46.7 tok/s	高速
Gemma 4 26B	ON	25.9秒	46.2 tok/s	高速
Qwen 3.5 35B	OFF	99.1秒	56.2 tok/s	152 tok/s
Qwen 3.5 35B	ON	100.3秒	56.1 tok/s	152 tok/s

重要な発見：処理時間の差はPrefill（画像処理）が原因

生成速度（tok/s）だけを見ると、Qwen 3.5の方が速い（56 vs 47 tok/s）ですが、総処理時間ではGemma 4が圧倒的に速い結果となりました。

この差の原因はPrefill（画像トークン処理）にあります：

Qwen 3.5：画像を11,867トークンに展開 → 152 tok/sで処理しても約77秒かかる
Gemma 4：画像トークン数が少なく、Prefillが数秒で完了

これはモデルのアーキテクチャの違いであり、ツール（vllm-mlx / mlx-vlm）に関係なく同じ傾向が見られます。4032×3024で１つの画像が3-5MBというファイルサイズの際にQwenではその分だけPrefill処理に時間が取られてしまうみたいですね。小さい画像なら結果が変わってそうです。

思考モードON vs OFF：どちらが画像分析に良いか？

モデル	思考OFF	思考ON	差
Gemma 4	20.6秒	25.9秒	+26%遅い
Qwen 3.5	99.1秒	100.3秒	+1%遅い

結論：画像認識・説明タスクには思考OFFが推奨

速度が速い – 特にGemma 4では26%の差
画像説明は直接的なタスク – 「見えるものを説明する」のに思考プロセスは不要
トークン効率 – 思考トークンが回答の枠を消費しない

思考ONが有効なのは、画像内の矛盾点を見つけたり、複数要素の関係性を推論するなど、複雑な分析が必要な場合です。

品質評価

Claude（Anthropic）による評価を行いました。評価基準は以下の3項目（各10点満点）：

正確さ：画像の内容を正しく認識しているか
詳細さ：具体的な情報を提供しているか
日本語の自然さ：読みやすく自然な日本語か

総合スコア

モデル	sample1	sample2	sample3	合計	平均
Gemma 4 26B	29	27	29	85	28.3/30
Qwen 3.5 35B	28	23	24	75	25.0/30

回答例の比較

Sample 1: TV画面（NHK「時論公論」）

Gemma 4 の回答（抜粋）

この画像は、テレビ画面に映し出されたプレゼンテーション資料、あるいはニュース番組の解説スライドを撮影したものです。

内容は、「AI時代における人間の役割と、人材育成の重要性」について論じています。

スライドに書かれている内容を詳しく解説します。

1. スライドの主な内容
スライドには、AI（人工知能）の普及に伴うリスクと、人間が持つべき能力について以下の点が記されています。

AIに仕事を任せすぎることへの警告: AIに頼りすぎると、人間の「思考力」が低下してしまう。

AIの限界と人間の役割: AIが作業をこなしたとしても、人間が本来持つべき「力」が失われてしまえば、成果を上げることができなくなる。

2. スライドの構成要素

左側: 講師または発表者と思われる人物の顔写真があります。

左下のテキスト: 「慶應義塾大学栗原聡教授」と記載されており、この内容が専門的な知見に基づいたものであることがわかります。

評価：番組名、出演者、テーマ、テロップ内容をすべて正確に把握。構成要素を整理して説明しており、非常に読みやすい。
正確さ: 10 / 詳細さ: 9 / 日本語: 10 = 29点

Qwen 3.5 の回答（抜粋）

<think>ユーザーは画像の内容について詳しく説明を求めています。

画像を分析します。
1. 主要な被写体: 液晶テレビ（SHARP製 AQUOS）が映っています。
2. テレビ画面の内容:
* 番組名/ジャンル: 右上に「NHK G」とあり、左上に「時論公論」というテロップがあります。
* テーマ: 「AI時代に必要な若手人材育成」というタイトルが表示されています。
* 出演者: 左側に男性の写真があり、「慶應義塾大学栗原聡教授」と名前と肩書きが書かれています。

3. 周囲の環境:
* テレビの左側には、黒い機器（おそらくDVDレコーダーやゲーム機、あるいはPCのケース）が積み重なっています。
* テレビは木製のテレビボードの上に置かれています。
</think>

この画像は、NHKの教養番組「時論公論」を放送している液晶テレビを撮影したものです…

評価：TV機種（SHARP AQUOS）や周囲環境まで詳細に描写。ただし<think>タグ（思考過程）が回答に混在しており、回答が800トークンで途切れている。
正確さ: 10 / 詳細さ: 10 / 日本語: 8（思考タグ混在のため減点）= 28点

Sample 2: おせち料理

Gemma 4 の回答（抜粋）

この画像は、日本の伝統的な料理である「折詰（おりづめ）」、あるいは「重箱（じゅうばこ）」に詰められた豪華な料理を写したものです。

おそらく、お祝い事や特別な日のための「御膳（ごぜん）」、あるいは季節の食材を使った「懐石料理」の一部と思われます。

1. 構成と盛り付け
黒い漆塗りのような重箱が使われており、仕切りによって異なる種類の料理が美しく、かつ整理されて盛り付けられています。

2. 料理の内容（推測される食材）

左上： 巻き物（肉や魚の巻き物）と、薄切りの野菜

左中： 白い食材（豆腐や練り物）と、ピンク色の食材（かまぼこなど）

右中： 蓮根（れんこん）や、根菜類の煮物

3. 特徴的な要素

彩り： オレンジ（人参）、白、ピンク、緑、茶色など、色彩のバランスが非常に良い

季節感： 筍（たけのこ）のような食材が見えることから、春の季節を意識した料理である可能性が高い

評価：「折詰」「重箱」と正しく認識。食材の特定、彩り、調理法の解説が詳細。ただし「おせち料理」とは明言せず「懐石料理の一部」と表現している点がやや曖昧。
正確さ: 8（おせちと明言せず） / 詳細さ: 9 / 日本語: 10 = 27点

Qwen 3.5 の回答（抜粋）

画像の分析：
1. 全体像: 黒い漆器の重箱（重なり合った箱）が複数置かれています。これは日本の伝統的な料理、特に「お節料理」や「お雑煮」の形式に見えます。
2. 食材の特定：

左上の重箱：黒い丸いもの：巻物。中にオレンジ色の具（カマボコ？）が見える。

黄色い細長いもの：「ごぼうの天ぷら」か「蓮根の天ぷら」？

再考：食材をよく見ると、伊達巻、蓮根、ごぼう、かまぼこ、椎茸など。これらは典型的なお節料理の具材…

評価：「おせち料理」と正しく特定。食材も詳細に推測している。ただし思考過程が長く、回答が800トークンで途切れており、結論部分が欠落。
正確さ: 9 / 詳細さ: 7（途切れ） / 日本語: 7（思考タグ混在）= 23点

Sample 3: 桜と城

Gemma 4 の回答（抜粋）

この画像は、満開の桜の花越しに、日本の伝統的な城（おそらく日本のどこかにある歴史的な城）を捉えた、非常に美しい風景写真です。

1. 前景と中景（桜の花）：
画面の左右と下部を、白から淡いピンク色の満開の桜が覆っています。桜の花がフレームのような役割を果たしており、見る人の視線を中央の城へと導いています。

2. 背景（城の建築）：
中央には、白い壁と黒い屋根が特徴的な、伝統的な日本のお城が見えます。屋根の形状（入母屋造りなど）や、白漆喰の壁、独特の装飾的な軒先は、日本の城郭建築の典型的なスタイルです。

3. 色彩と光：
空の明るい青、桜の白、城の白と黒、そして木の枝の茶色が、非常に調和のとれたコントラストを生み出しています。

4. 構図：
「額縁構図（フレーム・イン・フレーム）」という手法が使われています。桜の枝が天然の額縁となり、中央の城を際立たせています。

評価：構図分析（額縁構図）、色彩・光の解説が秀逸。城の特定は「日本のどこかにある歴史的な城」と曖昧だが、写真分析としては適切な表現。
正確さ: 9 / 詳細さ: 10 / 日本語: 10 = 29点

Qwen 3.5 の回答（抜粋）

<think>画像の分析：
1. 主要な被写体: 中央に伝統的な日本の城の天守閣（または櫓）が見えます。
5. 場所の特定: この城の形状（白壁、黒い屋根、石垣）と桜の組み合わせから、日本の有名な城である可能性が高いです。特に、この特定の角度（桜越しに城が見える）は、弘前城（青森県）の桜の季節の風景として非常に有名です。
</think>

この画像は、日本の城と桜が調和した美しい春の風景です…

評価：「弘前城」と具体的に特定している（これはちなみに金沢城。。。）思考過程含めて、かなり詳細だが、逆に違う内容を回答する可能性もある。回答本文は800トークンで途切れている。
正確さ: 8（弘前城特定は不確か） / 詳細さ: 8（途切れ） / 日本語: 8 = 24点

結論

項目	Gemma 4 26B	Qwen 3.5 35B
vllm-mlx 平均処理時間	13.6秒	92.6秒
mlx-vlm 平均処理時間（思考OFF）	20.6秒	99.1秒
生成速度	46.7 tok/s	56.2 tok/s
品質スコア	85点 (28.3/30)	75点 (25.0/30)
日本語の自然さ	優秀	良好（思考タグ混在）
回答の完結性	完結	途切れあり

今回のテスト環境では、Gemma 4 26Bが画像認識タスクにおいて総合的に優れた結果となりました。

Gemma 4が速い理由

生成速度（tok/s）ではQwen 3.5が上回っていますが、画像のPrefill（前処理）時間でGemma 4が圧倒的に速いため、総処理時間で大きな差が出ています。これはモデルのアーキテクチャの違いによるものです。

世界の報告との一致

この結果は、世界中の開発者コミュニティで報告されている傾向と一致しています。

MindStudioの比較記事によると：

Gemma 4：効率的な画像エンコーディングを採用
Qwen 3.5：高解像度対応のため、画像を大量のトークンに展開

また、sglangプロジェクトのIssue #14078では、Qwen3-VLのPrefill性能低下（TTFT平均40秒）が報告されており、vLLMのIssue #20123では「Qwen VLは画像1枚あたり最大16,384トークンを生成する」ことが「VLM用途として極めて不合理に大きい」と指摘されています。

私たちの環境で計測したQwen 3.5の画像トークン数11,867は、まさにこの仕様に起因するものであり、環境固有の問題ではなくモデルアーキテクチャの特性であることが確認できました。

項目	私たちの計測	世界の報告
Qwen画像トークン数	11,867	最大16,384（デフォルト）
Prefill時間	約77秒	TTFT 40秒（Issue報告）
Gemmaとの速度差	4〜5倍遅い	「画像送信時に著しく遅い」

用途別の推奨

用途	推奨モデル	思考モード
画像認識（日常利用）	Gemma 4 26B	OFF
複雑な画像推論	Gemma 4 26B	ON
テキスト生成（高速）	Qwen 3.5 35B（mlx_lm.server経由）67tok/s	OFF
コーディング	Qwen 3.5 35B（mlx_lm.server経由）68tok/s	ON

注意事項（先にお読みください）

テスト環境

ハードウェア

ソフトウェア

比較モデル

テスト画像

テストプロンプト

ベンチマーク1: vllm-mlx

サーバー起動コマンド

vllm-mlx 速度比較結果

詳細データ

ベンチマーク2: mlx-vlm CLI（思考モード制御あり）

実行コマンド

mlx-vlm CLI 結果

重要な発見：処理時間の差はPrefill（画像処理）が原因

思考モードON vs OFF：どちらが画像分析に良いか？

品質評価

総合スコア

回答例の比較

Sample 1: TV画面（NHK「時論公論」）

Gemma 4 の回答（抜粋）

Qwen 3.5 の回答（抜粋）

Sample 2: おせち料理

Gemma 4 の回答（抜粋）

Qwen 3.5 の回答（抜粋）

Sample 3: 桜と城

Gemma 4 の回答（抜粋）

Qwen 3.5 の回答（抜粋）

結論

Gemma 4が速い理由

世界の報告との一致

用途別の推奨

関連リンク

コメント