はじめに
最新のローカルLLMには「思考モード(Thinking Mode)」が搭載されています。回答前に内部で推論プロセスを実行し、より正確な回答を導き出す機能です。
今回は、コーディング以外のタスクでQwen 3.5とGemma 4の思考モードを比較しました。
補足: コーディングタスクでは、ClineなどのエージェントでQwen 3.5が完成まで止まらず実行できており、実用的に使えています。今回はそれ以外の用途での比較です。
検証環境
ハードウェア
- MacBook Pro M1 Max 64GB
- oMLX(SSDキャッシュ付きLLMサーバー)
比較モデル
| モデル | パラメータ | アーキテクチャ | 知識カットオフ |
|---|---|---|---|
| Gemma 4 26B-A4B | 26B (Active 4B) | MoE | 2025年1月 |
| Qwen 3.5 35B-A3B | 35B (Active 3B) | MoE | 2024年1月 |
両モデルともMoE(Mixture of Experts)アーキテクチャを採用。実際に活性化されるパラメータは3-4B程度で、64GBメモリのMacで快適に動作します。
oMLX 設定値
| 設定項目 | Gemma 4 26B-A4B | Qwen 3.5 35B-A3B |
|---|---|---|
| ctx_window | 32768 | 65536 |
| temp | 0.7 | 0.6 |
| top_p | 0.95 | 0.95 |
| top_k | 65 | 20 |
| min_p | 0 | 0 |
| rep_penalty | 1.2 | 1.15 |
| enable_thinking | true | – |
| reasoning_parser | – | qwen |
| 思考トークン制限 | – | 2048 |
注意: Qwen 3.5は思考トークン数を2048に制限しないと、思考ループに陥って回答に到達しないケースがありました。
テスト1: 桜の開花(事実確認タスク)
質問
「ソメイヨシノは全国47都道府県で咲きますか?」
一見シンプルですが、正確に答えるには気象学的・植物学的な知識が必要な質問です。
Gemma 4 の回答(思考時間: 12秒)
| 項目 | 評価 |
|---|---|
| 回答速度 | ✅ 12秒(高速) |
| 正確性 | ❌ 不正確(沖縄県を考慮していない) |
| 思考の深さ | △ 表面的 |
問題点: 北海道の寒さを心配しているが、実際の問題は「暖かすぎる沖縄」。思考の方向が逆。
🧠 Gemma 4 の思考プロセスを見る
※ 思考モードは英語で実行されるため、日本語に翻訳して掲載しています。
対象: ソメイヨシノ(染井吉野)
質問: 日本の47都道府県すべてで咲くか?
ソメイヨシノとは? Prunus × yedoensisの栽培品種。
どこで育つ? 日本全国に広く植えられている。
咲かない都道府県はあるか? 気候・気温が関係する。
育たない都道府県はあるか? 極端に寒い北部地域(北海道)は
開花時期が異なる可能性があるが、確実に咲く。
結論: はい、47都道府県すべてで咲く。
📝 Gemma 4 の最終回答を見る
はい、ソメイヨシノは全国47都道府県すべてで咲きます。
ただし、地域によって「咲く時期」や「環境」には違いがあります。
- 九州・四国など暖かい地域:3月下旬から4月上旬
- 東北・北海道などの寒い地域:4月中旬から5月上旬
Qwen 3.5 の回答(思考時間: 51秒)
| 項目 | 評価 |
|---|---|
| 回答速度 | △ 51秒(やや長い) |
| 正確性 | ✅ 正確(沖縄県の例外を正しく指摘) |
| 思考の深さ | ✅ 深い(自己修正・公式データ参照) |
🧠 Qwen 3.5 の思考プロセスを見る
※ 思考モードは英語で実行されるため、日本語に翻訳して掲載しています。
リクエストの分析:
対象: ソメイヨシノ
質問: 47都道府県すべてで咲くか?
情報検索:
- 典型的な分布は? 日本全国に広く植えられている。
- 例外はあるか? はい、気候のため非常に少ないか
まったくない離島や特定の都道府県がある可能性。
重要な事実: ソメイヨシノが自然に開花しない都道府県がある。
具体的な例外: 沖縄県が最も有名なケース。
理由: ソメイヨシノは冬に低温(冷涼時間)を必要とする。
沖縄は暖かすぎる → 花芽が正常に形成されない。
公式調査: 気象庁は沖縄県のソメイヨシノの開花日を発表していない。
自己修正:
- 一部の情報源は「47都道府県で咲く」と一般化している。
- しかし、生物学的・気象学的には正確ではない。
- 「植えられている」と「実際に咲く」を区別しよう。
最終検証:
- ソメイヨシノは沖縄で咲くか?
→ 冷涼時間不足でうまく開花しないことが知られている。
- 気象庁は沖縄のソメイヨシノを追跡しているか?
→ いいえ、代わりに「沖縄桜」(寒緋桜)を追跡している。
決定: 全国に植えられているが、気候のため
効果的に開花しない都道府県があると回答する。
📝 Qwen 3.5 の最終回答を見る
厳密には「全国47都道府県で咲く」とは言えません。
1. 沖縄県および奄美大島(鹿児島県)
- 理由:気候が暖かすぎます。ソメイヨシノは冬に一定期間の低温(冷涼期)を必要とします。
- 現状:気象庁の「桜前線」にも沖縄県は含まれません。
2. 気象庁の観測について
- 気象庁が発表する「桜前線」は、ソメイヨシノの開花日付を基準にしています。
- 沖縄県などの地域では、ソメイヨシノの開花日付を統計的に発表していません。
結論: 「ほぼ全国で咲く」のは事実ですが、「47都道府県すべてで確実に咲く」という表現は厳密には誤りです。
テスト2: 交通案内(時事知識タスク)
質問
「東京駅から福井駅への行き方を教えてください」
2024年3月16日に北陸新幹線が敦賀まで延伸開業。この最新情報を知っているかがポイントです。
Gemma 4 の回答(思考時間: 20秒)
| 項目 | 評価 |
|---|---|
| 回答速度 | ✅ 20秒(高速) |
| 正確性 | ○ 正解(到達可能だが、直通確認せず乗換を案内) |
| 実用性 | ✅ 予約アドバイスまで含む |
🧠 Gemma 4 の思考プロセスを見る
※ 思考モードは英語で実行されるため、日本語に翻訳して掲載しています。
出発地: 東京駅
目的地: 福井駅
目標: 行き方(経路案内)
重要な進展は北陸新幹線の敦賀延伸(2024年3月16日開業)。
以前: 東京 → 金沢/富山(新幹線) → 特急に乗り換え → 福井
現在: 東京 → 敦賀(新幹線) → 福井
オプション1: 最も一般的/直接的な方法(北陸新幹線)
経路: 東京 → 敦賀(北陸新幹線) → 福井
(自己修正): 直通列車はあるか? いいえ、新幹線は敦賀で終点。
敦賀から福井へは北陸本線に乗り換える。
経路1: 東京 → 敦賀(新幹線) → 福井(普通/快速)。これが標準。
📝 Gemma 4 の最終回答を見る
2024年3月の北陸新幹線延伸(金沢〜敦賀間)により、東京駅から福井駅へのアクセスは非常にスムーズになりました。
1. 最も一般的な行き方(北陸新幹線を利用)
経路:
- 東京駅 → (北陸新幹線:かがやき または はくたか) → 敦賀駅
- 敦賀駅 → (ハピラインふくい 等) → 福井駅
所要時間: 約2時間40分〜3時間程度
💡 旅行のアドバイス
- 「かがやき」は全車指定席。事前予約推奨
- スマートEXやえきねっとで早割あり
💡 補足: この回答で福井に到達できるため正解ですが、実際には新幹線で福井駅に直接行けます(福井は敦賀の手前)。「敦賀が終点→乗り換え」で結論を出し、直通の可能性を確認しなかったのが直線的思考の特徴です。
Qwen 3.5 の回答(思考時間: 45秒)
| 項目 | 評価 |
|---|---|
| 回答速度 | ✅ 45秒 |
| 正確性 | △ 結果的に正しいが理由が異なる |
| 実用性 | ✅ 料金・バス比較まで詳細 |
興味深い点: Qwen 3.5は「北陸新幹線で福井駅に直接行ける」と回答。これは2024年3月延伸後の現在は正しいですが、思考プロセスでは「2015年から福井に停車」と誤った理由付けをしています(実際は2024年3月から)。
🧠 Qwen 3.5 の思考プロセスを見る
※ 思考モードは英語で実行されるため、日本語に翻訳して掲載しています。
リクエストの分析:
出発地: 東京駅
目的地: 福井駅(JR福井駅)
目標: 行き方の案内
主要な交通手段の特定:
最も一般的で速いのは新幹線。
バスや車もあるが、一般旅行者には新幹線が定番。
新幹線オプションの評価:
オプションA: 北陸新幹線で直接。
- 北陸新幹線(長野経由)は現在金沢まで直通。
- 福井に停車するか? はい、「かがやき」「はくたか」などが停車。
(※実際には2024年3月延伸後の話だが、Qwenは2015年時点で
既に福井に停車すると誤認している)
- 所要時間: 約2時間30分〜3時間
- 料金: 約10,000〜12,000円
自己修正/検証:
直通列車はあるか? → はい、北陸新幹線で乗り換えなし。
(※この認識は結果的に2024年3月以降では正しい)
最終構成:
方法1: 新幹線(最速・推奨)
方法2: 高速バス(安価)
比較表を作成
📝 Qwen 3.5 の最終回答を見る
1. 【推奨】新幹線で移動(最速)
北陸新幹線を利用するのが最も一般的で早いです。東京駅から乗り換えなしで行ける直通列車があります。
- ルート: 東京駅 →(北陸新幹線)→ 福井駅
- 所要時間: 約2時間半〜3時間
- 料金: 約10,580円〜12,760円
- 主な列車: 「かがやき」「はくたか」など
2. 【安価】高速バス(夜行・昼行)
- ルート: 東京駅周辺(バスタ新宿など)→ 福井駅
- 所要時間: 約8〜10時間
- 料金: 約5,000〜9,000円
比較まとめ
項目 新幹線 高速バス 所要時間 約2.5〜3時間 約9〜10時間 片道料金 約1.1〜1.3万円 約5,000〜9,000円 快適性 ◎ △〜○ 結論: 迷わず新幹線(北陸新幹線)で行くのが、時間と快適さのバランスで最もおすすめです。
思考パターンの比較分析
Gemma 4 の思考パターン:直線的思考
- 質問を分析
- 関連知識を検索
- 簡単な推論
- 1回の自己修正(必要な場合)
- 結論を出す
特徴: 一度決めた方向に進む。迷わず結論を出す。「本当にそうか?」の深掘りが少ない。
Qwen 3.5 の思考パターン:螺旋的思考
- 質問を分析
- 複数の情報源を検索
- 例外を特定
- 自己修正(「本当にそうか?」)
- 公式データで検証
- 概念の区別(「植えられている」vs「咲く」)
- 最終検証
- 慎重な結論
特徴: 何度も検証を繰り返す。例外を見逃さない。深い検証。
なぜ結果が分かれたのか
桜の質問(Qwen勝利)
| 観点 | Gemma 4 | Qwen 3.5 |
|---|---|---|
| 思考時間 | 12秒 | 51秒 |
| 自己修正 | なし | 複数回 |
| 例外の検討 | 北海道(誤り) | 沖縄(正解) |
| 公式データ参照 | なし | 気象庁 |
勝因: Qwenの「本当にそうか?」という自己修正が、沖縄の例外を発見。
交通案内の質問(興味深い結果)
| 観点 | Gemma 4 | Qwen 3.5 |
|---|---|---|
| 知識カットオフ | 2025年1月 | 2024年1月 |
| 敦賀延伸の認識 | 知っている | 知らない |
| 案内ルート | 敦賀乗換(正解だが回り道) | 福井直通(最適解) |
| 理由の正確性 | ○(直通確認せず) | △(時期を誤認) |
興味深い点: 両モデルとも福井に到達できる回答ですが、アプローチが対照的。Gemma 4は「敦賀が終点→乗り換え」で即決。Qwen 3.5は誤った知識から偶然最適解に到達。直線的思考 vs 螺旋的思考の違いがここにも現れています。
実用的な使い分け
タスク別推奨
| タスク | 推奨モデル | 理由 |
|---|---|---|
| コーディング | Qwen 3.5 | 完成まで止まらず実行 |
| 事実確認 | Qwen 3.5 | 深い検証で正確 |
| 時事的な質問 | Gemma 4 | 知識が新しい |
| 手順説明・案内 | Gemma 4 | 素早く明確 |
| 画像を使う作業 | Gemma 4 | VLM性能が高い |
📎 関連記事: Gemma 4 vs Qwen 3.5 画像認識ベンチマーク – VLM性能の詳細な比較はこちら
Qwen 3.5 を使う際の注意
思考ループを防ぐための設定:
- 思考トークンを2048に制限 → 「結論を出す」圧力
- rep_penalty は控えめ(1.15)→ 高すぎると品質劣化
まとめ
思考モードの本質的な違い
| 特性 | Gemma 4 | Qwen 3.5 |
|---|---|---|
| 思考スタイル | 直線的(速い決断) | 螺旋的(深い検証) |
| 自己修正 | 最小限 | 複数回 |
| 知識カットオフ | 2025年1月(新しい) | 2024年1月 |
| 得意分野 | 時事・手順・VLM | 事実確認・コーディング |
結論
「思考が深い=常に良い」ではない。
- Qwenの深い思考は、ソメイヨシノ問題で沖縄の例外を発見した
- 交通案内では、誤った理由付けから偶然最適解(直通)に到達
- Gemmaは直線的思考で「敦賀乗換」で即決、直通の可能性を確認しなかった
- 思考の深さと回答の最適性は必ずしも一致しない
最適解は「使い分け」と「検証」。
用途に応じてモデルを選択し、重要な情報は複数ソースで確認することで、ローカルLLMを効果的に活用できます。
検証環境詳細
- マシン: MacBook Pro M1 Max 64GB
- サーバー: oMLX(SSDキャッシュ有効)
- モデル: 4bit量子化版
- Gemma 4: mlx-community/gemma-4-26b-a4b-it-4bit
- Qwen 3.5: Qwen3.5-35B-A3B-4bit


コメント