Geminiモデル比較 — 96ページの旅行サイトで2.5 Flash/Pro/3世代を検証した結果

前回の記事「ローカルLLM vs クラウドAPI」で、ローカルLLM（Ollama）とGemini APIを比較し、日本の交通情報生成にはクラウドAPI一択という結論に至った。Gemini 2.5 Flashを採用し、96ページ分の交通アクセス情報を一括生成した。

今回はその後日談だ。96ページを実際にバッチ処理したら何が起きたか、そしてGeminiのモデルティア（Flash / Pro / 3世代）で品質とコストがどう変わるかを検証した結果をまとめる。

96ページ一括生成の結果
問題1: Gemini 2.5 Flash固有の出力切断
1. 切断が発生したページ
2. 他モデルで再現テスト
問題2: 品質検証で見つかった4つの問題
問題3: 北陸新幹線敦賀延伸 — 最新情報を反映できるか
96ページの最終集計
Geminiモデル別コスト比較
実運用の4つの戦略
どこまで「最新」にこだわるか
まとめ — Geminiモデル選定の指針

96ページ一括生成の結果

Gemini 2.5 Flashで96ページを一括実行した。結果はこうなった。

結果	件数	割合
一発成功	82	86%
スキップ（前回テスト分で既存）	6	6%
出力切断エラー	7	7%
処理時間	約16分
コスト	約$0.05（約7円）

86%が一発成功。16分で$0.05。前回ローカルLLM（70B）で見積もった4.5時間と比べると、圧倒的な効率だ。

ただし完璧ではなかった。7件の出力切断と、後から発見した品質問題があった。ここからが本題になる。

問題1: Gemini 2.5 Flash固有の出力切断

96ページ中7件で、Gemini 2.5 Flashが出力を途中で停止した。HTMLの1つ目の<h3>セクションだけ書いて、約80トークンで突然止まる。内容自体は正しいのに、途中で切れている。

切断が発生したページ

東京タワー
嵐山
箱根温泉
大涌谷
箱根野外美術館
日光東照宮
長谷寺

再実行で3件は回復したが、残り4件は何度やっても切断される。2.5 Flash固有の再現性のあるバグだった。

他モデルで再現テスト

同じプロンプトを他のGeminiモデルで実行してみた。

モデル	嵐山	箱根温泉	大涌谷
Gemini 2.5 Flash	❌ 切断	❌ 切断	❌ 切断
Gemini 2.5 Pro	✔ 完全	✔ 完全	✔ 完全
Gemini 3 Flash Preview	✔ 完全	✔ 完全	✔ 完全
Gemini 3 Pro Preview	✔ 完全	✔ 完全	✔ 完全

2.5 Flash以外では切断ゼロ。2.5 Flash固有のバグか、thinking budget制限の可能性がある。実運用では、切断が発生したページのみ2.0 Flashにフォールバックすることで全件解決できた。

問題2: 品質検証で見つかった4つの問題

出力切断とは別に、生成されたコンテンツ自体の品質をClaude（別のAI）で6地域サンプルチェックしたところ、4件の問題が見つかった。

ページ	問題内容	深刻度
札幌	Local Accessが文の途中で切断（「From here, you can」で終了）	中
渋谷	Local Accessが途中切断、地下鉄路線の列挙なし	中
兼六園（金沢）	サンダーバード→金沢「直通」と記載。2024年3月の敦賀延伸が未反映	高
那覇	駅名「Miebashi」→ 正しくは「Makishi（牧志）」	低

4件とも手動で修正済み。札幌・渋谷は出力切断の亜種で、先ほどの7件と同種の問題。那覇の駅名誤りはローカルLLMの捏造と比べれば軽微だが、旅行情報としては見逃せない。

そして最も注目すべきは兼六園の問題だ。

問題3: 北陸新幹線敦賀延伸 — 最新情報を反映できるか

2024年3月、北陸新幹線が金沢から敦賀まで延伸された。これに伴い、大阪・京都から金沢への定番ルートが大きく変わった。

// 2024年3月以前（旧ルート）

大阪/京都 ──サンダーバード直通──→ 金沢
// 2024年3月以降（現在のルート）

大阪/京都 ──サンダーバード──→ 敦賀 ──北陸新幹線──→ 金沢

サンダーバードは敦賀止まりになり、金沢へは敦賀で新幹線に乗り換える必要がある。旅行者にとっては「乗換が1回増える」重要な変更だ。

兼六園のページで各モデルがこの変更を正しく反映しているかテストした。

モデル	敦賀（Tsuruga）記載	敦賀での乗換	判定
Gemini 2.5 Flash	❌ なし	—	旧情報
Gemini 2.5 Pro	❌ なし	—	旧情報
Gemini 3 Flash Preview	❌ なし	—	旧情報
Gemini 3 Pro Preview	✔ あり	✔ 正しく記載	最新情報

Gemini 3 Pro Previewだけが「サンダーバード → 敦賀 → 北陸新幹線 → 金沢」を正確に記載した。他の3モデルは全て旧ルート（サンダーバード直通）のまま。

💡 「間違い」ではなく「古い」
2.5 Flash等が出力した「サンダーバードで金沢」は、2024年3月以前であれば完全に正しいルートだった。捏造ではなく、学習データのカットオフ時期の問題だ。ローカルLLMが存在しない駅を生成したのとは本質的に異なる。旅行情報としては問題だが、フォールバック戦略で対処可能な範囲にある。

96ページの最終集計

結局、2.5 Flashでの96ページ一括生成の内訳はこうなった。

分類	件数	対応
2.5 Flashで問題なし	82件	そのまま使用
出力切断（2.5 Flash固有バグ）	7件	2.0 Flashフォールバックで解決
品質問題（途中切断・不完全）	2件	手動修正
最新情報の問題	2件+	手動修正 or 上位モデルで再生成
修正が必要だった合計	11件（約12%）	—

88%が一発OK、12%に修正が必要。完璧ではないが、96ページを16分で$0.05で生成し、11件だけ手直しすれば完成という効率は、手作業と比較すれば圧倒的だ。

Geminiモデル別コスト比較

ここからが本記事の核心。Geminiには複数のモデルティアがあり、価格と性能のバランスが大きく異なる。96ページ全量生成のコストを比較する。

モデル	Input/1M	Output/1M	96ページ推定	品質	最新情報
2.0 Flash	$0.10	$0.40	$0.03	フォールバック用	❌
2.5 Flash	$0.15	$0.60	$0.05	88%成功	❌
2.5 Pro	$1.25	$10.00	$0.60	切断なし	❌
3 Flash Preview	$0.50	$3.00	$0.17	切断なし	❌
3 Pro Preview	$2.50	$15.00	$1.50	切断なし	✔

最安の2.0 Flashが$0.03（約5円）、最新情報を正確に反映する3 Pro Previewが$1.50（約230円）。30倍の価格差がある。これをどう使い分けるかがポイントだ。

実運用の4つの戦略

コストと品質のバランスに応じて、4つの戦略が考えられる。

戦略A: コスト最優先（
戦略A: コスト最優先（$0.05/回）
.05/回）

2.5 Flash + 2.0 Flashフォールバック
メインは2.5 Flash、切断エラーが発生したページのみ2.0 Flashで再生成。最新情報のチェックは年1〜2回手動で行う。96ページで$0.05、月1回更新しても年間$0.60（約90円）。

最も安い戦略。鉄道の大きな変更がない地域（東京都心、京都市内など主要路線が安定している場所）では、古い情報でも実質問題ないケースが多い。

戦略B: 品質優先（
戦略B: 品質優先（$0.17/回）
.17/回）

3 Flash Preview
出力切断の問題が解消され、品質も2.5世代より向上。96ページで$0.17、月1回更新しても年間$2.04（約310円）。

コストと品質のバランスが最も良い。最新情報の反映は期待できないが、出力切断ゼロで安定した生成が可能。

戦略C: 最新情報重視（.50/回）

3 Pro Preview
全ページを3 Proで生成。最新の鉄道変更（敦賀延伸等）も正しく反映。96ページで$1.50、月1回更新しても年間$18（約2,700円）。「常に最新の交通情報」をサイトの差別化ポイントにできる。

年間2,700円で96ページの交通情報が常に最新に保たれる。人間のライターに依頼するコストを考えれば破格だ。

戦略D: ハイブリッド（
戦略D: ハイブリッド（$0.20〜0.30/回）
.20〜0.30/回）

3 Flash（基本） + 3 Pro（要注意地域）
大部分は3 Flashで生成し、鉄道変更が多い地域（北陸新幹線沿線、九州新幹線沿線等）のみ3 Proで生成。年間$3〜4（約450〜600円）。

最も現実的な戦略。「この地域は鉄道の延伸・廃止があった」と分かっているページだけ上位モデルを使う。

戦略比較まとめ

戦略	96ページ/回	年間（月1更新）	出力切断	最新情報
A: コスト最優先	$0.05	$0.60（約90円）	フォールバックで対処	❌
B: 品質優先	$0.17	$2.04（約310円）	✔ なし	❌
C: 最新情報重視	$1.50	$18（約2,700円）	✔ なし	✔
D: ハイブリッド	$0.20〜0.30	$3〜4（約450〜600円）	✔ なし	△ 部分的

どこまで「最新」にこだわるか

今回の検証で分かったのは、「間違っている」と「古い」は別の問題だということだ。

前回の記事で見たローカルLLMの出力は「存在しない駅を案内する」「走っていない路線を勧める」という完全な捏造だった。これは情報の新旧に関係なく、どの時代でも間違いだ。

一方、Gemini 2.5 Flashの「サンダーバードで金沢直通」は、2024年3月以前であれば完全に正しい情報だった。事実としては合っているが、現在は変わっているという性質の問題であり、旅行者への実害は限定的だ（最悪でも敦賀で乗換が必要になるだけ）。

// ローカルLLM（7-8B）の出力 → 捏造

「北大阪急行で伊丹空港駅」 → 存在しない。どの時代でも間違い。
// Gemini 2.5 Flashの出力 → 旧情報

「サンダーバードで金沢直通」 → 2024年3月以前は正しかった。今は敦賀乗換が必要。
// Gemini 3 Pro Previewの出力 → 最新情報

「サンダーバード→敦賀→北陸新幹線→金沢」 → 現在のルートを正確に反映。

つまり判断基準はこうなる:

間違った情報は絶対にダメ → ローカルLLM（7-8B）は交通情報に使えない（前回の結論）
古い情報は許容できるか？ → サイトの性質による。「間違いではないが最新でない」を許容するなら2.5 Flashで年間90円
最新情報にこだわるか？ → 3 Pro Previewで年間2,700円。旅行サイトの差別化になる

まとめ — Geminiモデル選定の指針

✔ この記事の結論

Gemini 2.5 Flashで96ページ中88%が一発成功。$0.05で16分。実用十分
2.5 Flash固有の出力切断は2.0 Flashフォールバックで100%解決
最新の交通変更を反映できるのはGemini 3 Pro Previewのみ
ただし「古い」と「間違い」は別。旧情報でも捏造よりはるかにマシ
年間$18で96ページが常に最新に保てる。コスト意識を持ちつつ、タスクに合ったモデルティアを選ぶのが正解

判断基準	推奨モデル
とにかく安く、大部分は問題ない	2.5 Flash（$0.05/96ページ）
切断ゼロで安定、コスパも良い	3 Flash Preview（$0.17/96ページ）
最新の鉄道変更も正確に反映したい	3 Pro Preview（$1.50/96ページ）
コストと最新性を両立したい	3 Flash + 3 Pro ハイブリッド（$0.20〜0.30/96ページ）