ローカルLLM思考モード対決:Qwen 3.5 vs Gemma 4 – 桜の開花と交通情報で比較

AI活用

はじめに

最新のローカルLLMには「思考モード(Thinking Mode)」が搭載されています。回答前に内部で推論プロセスを実行し、より正確な回答を導き出す機能です。

今回は、コーディング以外のタスクでQwen 3.5とGemma 4の思考モードを比較しました。

補足: コーディングタスクでは、ClineなどのエージェントでQwen 3.5が完成まで止まらず実行できており、実用的に使えています。今回はそれ以外の用途での比較です。

検証環境

ハードウェア

  • MacBook Pro M1 Max 64GB
  • oMLX(SSDキャッシュ付きLLMサーバー)

比較モデル

モデル パラメータ アーキテクチャ 知識カットオフ
Gemma 4 26B-A4B 26B (Active 4B) MoE 2025年1月
Qwen 3.5 35B-A3B 35B (Active 3B) MoE 2024年1月

両モデルともMoE(Mixture of Experts)アーキテクチャを採用。実際に活性化されるパラメータは3-4B程度で、64GBメモリのMacで快適に動作します。

oMLX 設定値

設定項目 Gemma 4 26B-A4B Qwen 3.5 35B-A3B
ctx_window 32768 65536
temp 0.7 0.6
top_p 0.95 0.95
top_k 65 20
min_p 0 0
rep_penalty 1.2 1.15
enable_thinking true
reasoning_parser qwen
思考トークン制限 2048

注意: Qwen 3.5は思考トークン数を2048に制限しないと、思考ループに陥って回答に到達しないケースがありました。

テスト1: 桜の開花(事実確認タスク)

質問

「ソメイヨシノは全国47都道府県で咲きますか?」

一見シンプルですが、正確に答えるには気象学的・植物学的な知識が必要な質問です。

Gemma 4 の回答(思考時間: 12秒)

項目 評価
回答速度 ✅ 12秒(高速)
正確性 不正確(沖縄県を考慮していない)
思考の深さ △ 表面的

問題点: 北海道の寒さを心配しているが、実際の問題は「暖かすぎる沖縄」。思考の方向が逆。

🧠 Gemma 4 の思考プロセスを見る

※ 思考モードは英語で実行されるため、日本語に翻訳して掲載しています。

対象: ソメイヨシノ(染井吉野)
質問: 日本の47都道府県すべてで咲くか?

ソメイヨシノとは? Prunus × yedoensisの栽培品種。
どこで育つ? 日本全国に広く植えられている。
咲かない都道府県はあるか? 気候・気温が関係する。
育たない都道府県はあるか? 極端に寒い北部地域(北海道)は
開花時期が異なる可能性があるが、確実に咲く。

結論: はい、47都道府県すべてで咲く。
📝 Gemma 4 の最終回答を見る

はい、ソメイヨシノは全国47都道府県すべてで咲きます。

ただし、地域によって「咲く時期」や「環境」には違いがあります。

  • 九州・四国など暖かい地域:3月下旬から4月上旬
  • 東北・北海道などの寒い地域:4月中旬から5月上旬

Qwen 3.5 の回答(思考時間: 51秒)

項目 評価
回答速度 △ 51秒(やや長い)
正確性 正確(沖縄県の例外を正しく指摘)
思考の深さ ✅ 深い(自己修正・公式データ参照)
🧠 Qwen 3.5 の思考プロセスを見る

※ 思考モードは英語で実行されるため、日本語に翻訳して掲載しています。

リクエストの分析:
対象: ソメイヨシノ
質問: 47都道府県すべてで咲くか?

情報検索:
- 典型的な分布は? 日本全国に広く植えられている。
- 例外はあるか? はい、気候のため非常に少ないか
  まったくない離島や特定の都道府県がある可能性。

重要な事実: ソメイヨシノが自然に開花しない都道府県がある。

具体的な例外: 沖縄県が最も有名なケース。
理由: ソメイヨシノは冬に低温(冷涼時間)を必要とする。
沖縄は暖かすぎる → 花芽が正常に形成されない。

公式調査: 気象庁は沖縄県のソメイヨシノの開花日を発表していない。

自己修正:
- 一部の情報源は「47都道府県で咲く」と一般化している。
- しかし、生物学的・気象学的には正確ではない。
- 「植えられている」と「実際に咲く」を区別しよう。

最終検証:
- ソメイヨシノは沖縄で咲くか?
  → 冷涼時間不足でうまく開花しないことが知られている。
- 気象庁は沖縄のソメイヨシノを追跡しているか?
  → いいえ、代わりに「沖縄桜」(寒緋桜)を追跡している。

決定: 全国に植えられているが、気候のため
効果的に開花しない都道府県があると回答する。
📝 Qwen 3.5 の最終回答を見る

厳密には「全国47都道府県で咲く」とは言えません。

1. 沖縄県および奄美大島(鹿児島県)

  • 理由:気候が暖かすぎます。ソメイヨシノは冬に一定期間の低温(冷涼期)を必要とします。
  • 現状:気象庁の「桜前線」にも沖縄県は含まれません。

2. 気象庁の観測について

  • 気象庁が発表する「桜前線」は、ソメイヨシノの開花日付を基準にしています。
  • 沖縄県などの地域では、ソメイヨシノの開花日付を統計的に発表していません。

結論: 「ほぼ全国で咲く」のは事実ですが、「47都道府県すべてで確実に咲く」という表現は厳密には誤りです。

テスト2: 交通案内(時事知識タスク)

質問

「東京駅から福井駅への行き方を教えてください」

2024年3月16日に北陸新幹線が敦賀まで延伸開業。この最新情報を知っているかがポイントです。

Gemma 4 の回答(思考時間: 20秒)

項目 評価
回答速度 ✅ 20秒(高速)
正確性 正解(到達可能だが、直通確認せず乗換を案内)
実用性 ✅ 予約アドバイスまで含む
🧠 Gemma 4 の思考プロセスを見る

※ 思考モードは英語で実行されるため、日本語に翻訳して掲載しています。

出発地: 東京駅
目的地: 福井駅
目標: 行き方(経路案内)

重要な進展は北陸新幹線の敦賀延伸(2024年3月16日開業)。

以前: 東京 → 金沢/富山(新幹線) → 特急に乗り換え → 福井
現在: 東京 → 敦賀(新幹線) → 福井

オプション1: 最も一般的/直接的な方法(北陸新幹線)
経路: 東京 → 敦賀(北陸新幹線) → 福井

(自己修正): 直通列車はあるか? いいえ、新幹線は敦賀で終点。
敦賀から福井へは北陸本線に乗り換える。

経路1: 東京 → 敦賀(新幹線) → 福井(普通/快速)。これが標準。
📝 Gemma 4 の最終回答を見る

2024年3月の北陸新幹線延伸(金沢〜敦賀間)により、東京駅から福井駅へのアクセスは非常にスムーズになりました。

1. 最も一般的な行き方(北陸新幹線を利用)

経路:

  • 東京駅 → (北陸新幹線:かがやき または はくたか) → 敦賀駅
  • 敦賀駅 → (ハピラインふくい 等) → 福井駅

所要時間: 約2時間40分〜3時間程度

💡 旅行のアドバイス

  • 「かがやき」は全車指定席。事前予約推奨
  • スマートEXやえきねっとで早割あり

💡 補足: この回答で福井に到達できるため正解ですが、実際には新幹線で福井駅に直接行けます(福井は敦賀の手前)。「敦賀が終点→乗り換え」で結論を出し、直通の可能性を確認しなかったのが直線的思考の特徴です。

Qwen 3.5 の回答(思考時間: 45秒)

項目 評価
回答速度 ✅ 45秒
正確性 結果的に正しいが理由が異なる
実用性 ✅ 料金・バス比較まで詳細

興味深い点: Qwen 3.5は「北陸新幹線で福井駅に直接行ける」と回答。これは2024年3月延伸後の現在は正しいですが、思考プロセスでは「2015年から福井に停車」と誤った理由付けをしています(実際は2024年3月から)。

🧠 Qwen 3.5 の思考プロセスを見る

※ 思考モードは英語で実行されるため、日本語に翻訳して掲載しています。

リクエストの分析:
出発地: 東京駅
目的地: 福井駅(JR福井駅)
目標: 行き方の案内

主要な交通手段の特定:
最も一般的で速いのは新幹線。
バスや車もあるが、一般旅行者には新幹線が定番。

新幹線オプションの評価:
オプションA: 北陸新幹線で直接。
  - 北陸新幹線(長野経由)は現在金沢まで直通。
  - 福井に停車するか? はい、「かがやき」「はくたか」などが停車。

  (※実際には2024年3月延伸後の話だが、Qwenは2015年時点で
  既に福井に停車すると誤認している)

  - 所要時間: 約2時間30分〜3時間
  - 料金: 約10,000〜12,000円

自己修正/検証:
  直通列車はあるか? → はい、北陸新幹線で乗り換えなし。
  (※この認識は結果的に2024年3月以降では正しい)

最終構成:
  方法1: 新幹線(最速・推奨)
  方法2: 高速バス(安価)
  比較表を作成
📝 Qwen 3.5 の最終回答を見る

1. 【推奨】新幹線で移動(最速)

北陸新幹線を利用するのが最も一般的で早いです。東京駅から乗り換えなしで行ける直通列車があります。

  • ルート: 東京駅 →(北陸新幹線)→ 福井駅
  • 所要時間: 約2時間半〜3時間
  • 料金: 約10,580円〜12,760円
  • 主な列車: 「かがやき」「はくたか」など

2. 【安価】高速バス(夜行・昼行)

  • ルート: 東京駅周辺(バスタ新宿など)→ 福井駅
  • 所要時間: 約8〜10時間
  • 料金: 約5,000〜9,000円

比較まとめ

項目 新幹線 高速バス
所要時間 約2.5〜3時間 約9〜10時間
片道料金 約1.1〜1.3万円 約5,000〜9,000円
快適性 △〜○

結論: 迷わず新幹線(北陸新幹線)で行くのが、時間と快適さのバランスで最もおすすめです。

思考パターンの比較分析

Gemma 4 の思考パターン:直線的思考

  1. 質問を分析
  2. 関連知識を検索
  3. 簡単な推論
  4. 1回の自己修正(必要な場合)
  5. 結論を出す

特徴: 一度決めた方向に進む。迷わず結論を出す。「本当にそうか?」の深掘りが少ない。

Qwen 3.5 の思考パターン:螺旋的思考

  1. 質問を分析
  2. 複数の情報源を検索
  3. 例外を特定
  4. 自己修正(「本当にそうか?」)
  5. 公式データで検証
  6. 概念の区別(「植えられている」vs「咲く」)
  7. 最終検証
  8. 慎重な結論

特徴: 何度も検証を繰り返す。例外を見逃さない。深い検証。

なぜ結果が分かれたのか

桜の質問(Qwen勝利)

観点 Gemma 4 Qwen 3.5
思考時間 12秒 51秒
自己修正 なし 複数回
例外の検討 北海道(誤り) 沖縄(正解)
公式データ参照 なし 気象庁

勝因: Qwenの「本当にそうか?」という自己修正が、沖縄の例外を発見。

交通案内の質問(興味深い結果)

観点 Gemma 4 Qwen 3.5
知識カットオフ 2025年1月 2024年1月
敦賀延伸の認識 知っている 知らない
案内ルート 敦賀乗換(正解だが回り道) 福井直通(最適解)
理由の正確性 ○(直通確認せず) △(時期を誤認)

興味深い点: 両モデルとも福井に到達できる回答ですが、アプローチが対照的。Gemma 4は「敦賀が終点→乗り換え」で即決。Qwen 3.5は誤った知識から偶然最適解に到達。直線的思考 vs 螺旋的思考の違いがここにも現れています。

実用的な使い分け

タスク別推奨

タスク 推奨モデル 理由
コーディング Qwen 3.5 完成まで止まらず実行
事実確認 Qwen 3.5 深い検証で正確
時事的な質問 Gemma 4 知識が新しい
手順説明・案内 Gemma 4 素早く明確
画像を使う作業 Gemma 4 VLM性能が高い

📎 関連記事: Gemma 4 vs Qwen 3.5 画像認識ベンチマーク – VLM性能の詳細な比較はこちら

Qwen 3.5 を使う際の注意

思考ループを防ぐための設定:

  • 思考トークンを2048に制限 → 「結論を出す」圧力
  • rep_penalty は控えめ(1.15)→ 高すぎると品質劣化

まとめ

思考モードの本質的な違い

特性 Gemma 4 Qwen 3.5
思考スタイル 直線的(速い決断) 螺旋的(深い検証)
自己修正 最小限 複数回
知識カットオフ 2025年1月(新しい) 2024年1月
得意分野 時事・手順・VLM 事実確認・コーディング

結論

「思考が深い=常に良い」ではない。

  • Qwenの深い思考は、ソメイヨシノ問題で沖縄の例外を発見した
  • 交通案内では、誤った理由付けから偶然最適解(直通)に到達
  • Gemmaは直線的思考で「敦賀乗換」で即決、直通の可能性を確認しなかった
  • 思考の深さ回答の最適性は必ずしも一致しない

最適解は「使い分け」と「検証」。

用途に応じてモデルを選択し、重要な情報は複数ソースで確認することで、ローカルLLMを効果的に活用できます。

検証環境詳細

  • マシン: MacBook Pro M1 Max 64GB
  • サーバー: oMLX(SSDキャッシュ有効)
  • モデル: 4bit量子化版
  • Gemma 4: mlx-community/gemma-4-26b-a4b-it-4bit
  • Qwen 3.5: Qwen3.5-35B-A3B-4bit

コメント

タイトルとURLをコピーしました