Qwen3.5ベンチマーク比較 — 35B-A3B (MoE) vs 9B (Dense)、Mac M1 Maxで検証した驚きの結果

「パラメータ数＝性能」という神話が崩れた瞬間
なぜ「重い」モデルが「速い」のか？MoEの仕組み
驚愕の逆転劇！「Web解析」では9Bが100%完封
1. LLMクロール能力（HTML解析）のベンチマーク結果
2. なぜこんなことが起こるのか？
分析・文章作成では？速度と品質の両立は可能か
思考モードON/OFFの検証結果
結論：使い分けるべき「二刀流」戦略
まとめ：「重さ」ではなく「使い道」でAIを選ぶ時代へ
1. テスト環境

「パラメータ数＝性能」という神話が崩れた瞬間

最近、自宅のPCやMacで動かせるローカルLLM（大規模言語モデル）が急速に普及している。特にアリババクラウドが開発した「Qwen3.5」シリーズは、その性能の高さから世界中の注目を集めている。

多くのユーザーは「パラメータ数が多いほど賢く速い」という単純な図式でモデル選びを行っている。しかし、Mac M1 Max（64GB RAM）でQwen3.5の35B-A3B（総パラメータ350億、実際に使用されるのは約30億）モデルと9B（90億パラメータ）モデルをMLXフレームワークで比較した結果、「重いモデルが必ずしも速く正確ではない」という意外な事実が見つかった。

今回のテストでは、RAG（検索拡張生成）、Webページの解析（クロール）、そして文章作成という3つの異なるタスクで、それぞれのモデルがどう振る舞うかを徹底的に調べた。

なぜ「重い」モデルが「速い」のか？MoEの仕組み

まず、なぜ35B-A3Bモデルの方がRAG（ドローン規制などの条文から答えを抽出する作業）において、9Bモデルより圧倒的に速く、正解率も高いのか。その秘密はモデルのアーキテクチャにある。

今回比較した35B-A3Bモデルは、「MoE（Mixture of Experts）」という仕組みを採用している。これをわかりやすく説明するために、「超一流の料理学校」に例えてみよう。

Dense（9B）モデルとは

全ての料理を、同じ厨房で、同じシェフが手作業で調理するイメージだ。どんな料理でも、そのシェフが持つ全ての知識をフルに使い、一貫して調理する。

良い点：どの料理でも、シェフの癖や技術がブレず、品質が安定する
悪い点：ピラフを作りたい時も、寿司を作りたい時も、同じ大皿と包丁を使う。効率的ではない

MoE（35B-A3B）モデルとは

複数の「専門クラス（Expert）」を持つ学校だ。ミートディッシュは「肉料理の教室」に、デザートは「スイーツの教室」に、文脈処理は「言葉の教室」に生徒を振り分ける。

良い点：必要な時だけ特定の教室を使う。無駄なエネルギーを使わず、非常に高速で高品質な料理ができる
悪い点：生徒が「肉料理の教室」から「スイーツの教室」へ移動する際、移動中に迷子になると、元の料理のコンセプトを忘れる可能性がある

RAGのような「特定の専門知識を効率よく使う」タスクなら、MoEの35B-A3Bは断トツの性能を発揮する。

RAGベンチマーク（ドローン規制Q&A）の結果

RAG（Retrieval-Augmented Generation）とは？

LLMに外部の文書やデータベースを参照させ、その情報を基に回答を生成させる手法。例えば社内マニュアルや法律条文など、LLMが学習していない最新・専門情報を正確に引用させたい場合に使われる。「検索（Retrieval）」と「生成（Generation）」を組み合わせることで、ハルシネーション（AIがもっともらしい嘘をつく現象）を抑制できる。

実際に、ドローン規制に関する条文から正確な情報を抽出するRAGタスクでテストした結果がこちらだ。

モデル	時間	正解率
35B-A3B-ThinkOFF	14.75秒	57%
35B-A3B-ThinkON	35.20秒	50%
9B-ThinkOFF	28.50秒	50%

35B-A3Bは9Bの約2倍の速度で回答を生成し、正解率も7ポイント上回った。MoEアーキテクチャの「必要なExpertだけを使う」効率性が、RAGタスクで見事に発揮された形だ。

正解率が低く見える理由

今回のテストでは、参照させたPDFに含まれない内容の問題も意図的に出題している。そのため正解率が50〜57%と低めに見えるが、これはモデル間の相対比較を目的としたもの。PDF内に答えがある問題に限れば、実際の正解率はより高くなる。

驚愕の逆転劇！「Web解析」では9Bが100%完封

しかし、タスクによって勝敗が逆転する。

LLMクロール能力（HTML解析）のベンチマーク結果

モデル	時間	精度
35B-A3B-ThinkOFF	15.34秒	86.7%
9B-ThinkOFF	31.98秒	100%

速さは2倍近く有利な35B-A3Bモデルが、Webページの情報を正確に抽出するタスクでは、9Bモデルに完敗し、精度が13ポイントも落ちた。

なぜこんなことが起こるのか？

今回のテストでは、HTMLという構造体の一部（「売れ筋ランキング」と「注目ランキング」）を解析する課題が出された。MoEの35B-A3Bモデルは、各トークン（言葉）を別のExpertへ自動で振り分ける際、「文脈の境界線」を見失いやすい。

例えば、「売れ筋の3位」と「注目度の3位」を、同じ3位として処理してしまったり、ランキングの階層構造を理解しきれずに混乱してしまうケースが発生した。

一方、Denseの9Bモデルは、全てのトークンを同じ「厨房」で処理する。これにより、文脈の連続性や論理的一貫性が保たれ、複雑な構造を持つHTMLを100%正確に読み解いていた。

分析・文章作成では？速度と品質の両立は可能か

最後のタスクは、与えられた情報を元に「分析」し、「記事作成」を行うというクリエイティブな作業だ。

モデル	時間	回答文字数	特徴
35B-A3B-ThinkOFF	27.36秒	3,299文字	圧倒的に速い。ただし結論が少し短め
9B-ThinkOFF	58.25秒	4,422文字	約2倍の時間だが、論理構成がしっかりしている

この結果も、MoEとDenseの特性が色濃く表れている。35B-A3Bモデルは思考が飛躍的に速く、短時間で結果を提示してくれるが、文章の「厚み」や「論理的な深掘り」がやや不足気味な傾向が見られた。一方、9Bモデルは、ゆっくりと慎重に思考を巡らせ、より肉厚で説得力のある文章を生成している。

思考モードON/OFFの検証結果

Qwen3.5には「思考モード」（Chain of Thought）機能があり、回答前に推論プロセスを出力させることができる。デフォルトではONになっているが、公式ドキュメントでは多くのタスクでOFFが推奨されている。ブログ記事作成タスクでその違いを検証した。

モデル	モード	時間	思考	回答
35B-A3B	OFF	42.40s	0	4,983文字
35B-A3B	ON	58.50s	7,225文字	3,453文字
9B	OFF	48.61s	0	3,523文字
9B	ON	203.69s	8,847文字	11,594文字（不完全）

35B-A3B-ThinkONは、思考に7,225文字使った結果、回答が短くなった（4,983→3,453、約30%減少）。Qwenは思考にトークンを使い切る傾向があることが確認された。

9B-ThinkONは回答11,594文字と多いように見えるが、冒頭に「思考」がそのまま出力され、記事の途中で文が切れるという問題が発生した。

補足：思考モードの可能性について

今回の検証では「ブログ記事作成」というタスクにおいて思考モードOFFが優位だったが、これが全てのケースに当てはまるわけではない。数学的推論や複雑なコード生成など、段階的な思考が必要なタスクでは思考モードが有効な場面もある。また、思考トークン数の上限設定やプロンプトの工夫次第で結果が変わる可能性もある。Qwen3.5の思考モードを最大限に活かすには、タスクに応じたチューニングが鍵となるだろう。

結論：使い分けるべき「二刀流」戦略

今回のベンチマーク結果から、ローカルLLMを導入する際に目指すべきは、「最強のモデル」ではなく「状況に応じた最適解」の組み合わせであることが明確になった。

タスク	推奨モデル	推奨理由
RAG（情報抽出・検索）	35B-A3B (MoE)	莫大な知識を効率よく使い、素早く正確に答えを出すため
Webクロール（HTML解析）	9B (Dense)	複雑な構造を正確に理解するため、文脈の一貫性が最重要
分析・文章作成	35B-A3B（速度重視）/ 9B（品質重視）	急ぎの作業なら35B-A3B、推敲が必要な重要文書なら9Bを使うのが賢明