Geminiモデル比較 — 96ページの旅行サイトで2.5 Flash/Pro/3世代を検証した結果

AI活用

前回の記事「ローカルLLM vs クラウドAPI」で、ローカルLLM(Ollama)とGemini APIを比較し、日本の交通情報生成にはクラウドAPI一択という結論に至った。Gemini 2.5 Flashを採用し、96ページ分の交通アクセス情報を一括生成した。

今回はその後日談だ。96ページを実際にバッチ処理したら何が起きたか、そしてGeminiのモデルティア(Flash / Pro / 3世代)で品質とコストがどう変わるかを検証した結果をまとめる。

96ページ一括生成の結果

Gemini 2.5 Flashで96ページを一括実行した。結果はこうなった。

結果 件数 割合
一発成功 82 86%
スキップ(前回テスト分で既存) 6 6%
出力切断エラー 7 7%
処理時間 約16分
コスト 約$0.05(約7円)

86%が一発成功。16分で$0.05。前回ローカルLLM(70B)で見積もった4.5時間と比べると、圧倒的な効率だ。

ただし完璧ではなかった。7件の出力切断と、後から発見した品質問題があった。ここからが本題になる。

問題1: Gemini 2.5 Flash固有の出力切断

96ページ中7件で、Gemini 2.5 Flashが出力を途中で停止した。HTMLの1つ目の<h3>セクションだけ書いて、約80トークンで突然止まる。内容自体は正しいのに、途中で切れている。

切断が発生したページ

  • 東京タワー
  • 嵐山
  • 箱根温泉
  • 大涌谷
  • 箱根野外美術館
  • 日光東照宮
  • 長谷寺

再実行で3件は回復したが、残り4件は何度やっても切断される。2.5 Flash固有の再現性のあるバグだった。

他モデルで再現テスト

同じプロンプトを他のGeminiモデルで実行してみた。

モデル 嵐山 箱根温泉 大涌谷
Gemini 2.5 Flash ❌ 切断 ❌ 切断 ❌ 切断
Gemini 2.5 Pro ✔ 完全 ✔ 完全 ✔ 完全
Gemini 3 Flash Preview ✔ 完全 ✔ 完全 ✔ 完全
Gemini 3 Pro Preview ✔ 完全 ✔ 完全 ✔ 完全

2.5 Flash以外では切断ゼロ。2.5 Flash固有のバグか、thinking budget制限の可能性がある。実運用では、切断が発生したページのみ2.0 Flashにフォールバックすることで全件解決できた。

問題2: 品質検証で見つかった4つの問題

出力切断とは別に、生成されたコンテンツ自体の品質をClaude(別のAI)で6地域サンプルチェックしたところ、4件の問題が見つかった。

ページ 問題内容 深刻度
札幌 Local Accessが文の途中で切断(「From here, you can」で終了)
渋谷 Local Accessが途中切断、地下鉄路線の列挙なし
兼六園(金沢) サンダーバード→金沢「直通」と記載。2024年3月の敦賀延伸が未反映
那覇 駅名「Miebashi」→ 正しくは「Makishi(牧志)」

4件とも手動で修正済み。札幌・渋谷は出力切断の亜種で、先ほどの7件と同種の問題。那覇の駅名誤りはローカルLLMの捏造と比べれば軽微だが、旅行情報としては見逃せない。

そして最も注目すべきは兼六園の問題だ。

問題3: 北陸新幹線敦賀延伸 — 最新情報を反映できるか

2024年3月、北陸新幹線が金沢から敦賀まで延伸された。これに伴い、大阪・京都から金沢への定番ルートが大きく変わった。

// 2024年3月以前(旧ルート)
大阪/京都 ──サンダーバード直通──→ 金沢

// 2024年3月以降(現在のルート)
大阪/京都 ──サンダーバード──→ 敦賀 ──北陸新幹線──→ 金沢

サンダーバードは敦賀止まりになり、金沢へは敦賀で新幹線に乗り換える必要がある。旅行者にとっては「乗換が1回増える」重要な変更だ。

兼六園のページで各モデルがこの変更を正しく反映しているかテストした。

モデル 敦賀(Tsuruga)記載 敦賀での乗換 判定
Gemini 2.5 Flash ❌ なし 旧情報
Gemini 2.5 Pro ❌ なし 旧情報
Gemini 3 Flash Preview ❌ なし 旧情報
Gemini 3 Pro Preview ✔ あり ✔ 正しく記載 最新情報

Gemini 3 Pro Previewだけが「サンダーバード → 敦賀 → 北陸新幹線 → 金沢」を正確に記載した。他の3モデルは全て旧ルート(サンダーバード直通)のまま。

💡 「間違い」ではなく「古い」
2.5 Flash等が出力した「サンダーバードで金沢」は、2024年3月以前であれば完全に正しいルートだった。捏造ではなく、学習データのカットオフ時期の問題だ。ローカルLLMが存在しない駅を生成したのとは本質的に異なる。旅行情報としては問題だが、フォールバック戦略で対処可能な範囲にある。

96ページの最終集計

結局、2.5 Flashでの96ページ一括生成の内訳はこうなった。

分類 件数 対応
2.5 Flashで問題なし 82件 そのまま使用
出力切断(2.5 Flash固有バグ) 7件 2.0 Flashフォールバックで解決
品質問題(途中切断・不完全) 2件 手動修正
最新情報の問題 2件+ 手動修正 or 上位モデルで再生成
修正が必要だった合計 11件(約12%)

88%が一発OK、12%に修正が必要。完璧ではないが、96ページを16分で$0.05で生成し、11件だけ手直しすれば完成という効率は、手作業と比較すれば圧倒的だ。

Geminiモデル別コスト比較

ここからが本記事の核心。Geminiには複数のモデルティアがあり、価格と性能のバランスが大きく異なる。96ページ全量生成のコストを比較する。

モデル Input/1M Output/1M 96ページ推定 品質 最新情報
2.0 Flash $0.10 $0.40 $0.03 フォールバック用
2.5 Flash $0.15 $0.60 $0.05 88%成功
2.5 Pro $1.25 $10.00 $0.60 切断なし
3 Flash Preview $0.50 $3.00 $0.17 切断なし
3 Pro Preview $2.50 $15.00 $1.50 切断なし

最安の2.0 Flashが$0.03(約5円)、最新情報を正確に反映する3 Pro Previewが$1.50(約230円)。30倍の価格差がある。これをどう使い分けるかがポイントだ。

実運用の4つの戦略

コストと品質のバランスに応じて、4つの戦略が考えられる。

戦略A: コスト最優先(

戦略A: コスト最優先($0.05/回)

.05/回)

2.5 Flash + 2.0 Flashフォールバック
メインは2.5 Flash、切断エラーが発生したページのみ2.0 Flashで再生成。最新情報のチェックは年1〜2回手動で行う。96ページで$0.05、月1回更新しても年間$0.60(約90円)

最も安い戦略。鉄道の大きな変更がない地域(東京都心、京都市内など主要路線が安定している場所)では、古い情報でも実質問題ないケースが多い。

戦略B: 品質優先(

戦略B: 品質優先($0.17/回)

.17/回)

3 Flash Preview
出力切断の問題が解消され、品質も2.5世代より向上。96ページで$0.17、月1回更新しても年間$2.04(約310円)

コストと品質のバランスが最も良い。最新情報の反映は期待できないが、出力切断ゼロで安定した生成が可能。

戦略C: 最新情報重視(.50/回)

3 Pro Preview
全ページを3 Proで生成。最新の鉄道変更(敦賀延伸等)も正しく反映。96ページで$1.50、月1回更新しても年間$18(約2,700円)。「常に最新の交通情報」をサイトの差別化ポイントにできる。

年間2,700円で96ページの交通情報が常に最新に保たれる。人間のライターに依頼するコストを考えれば破格だ。

戦略D: ハイブリッド(

戦略D: ハイブリッド($0.20〜0.30/回)

.20〜0.30/回)

3 Flash(基本) + 3 Pro(要注意地域)
大部分は3 Flashで生成し、鉄道変更が多い地域(北陸新幹線沿線、九州新幹線沿線等)のみ3 Proで生成。年間$3〜4(約450〜600円)

最も現実的な戦略。「この地域は鉄道の延伸・廃止があった」と分かっているページだけ上位モデルを使う。

戦略比較まとめ

戦略 96ページ/回 年間(月1更新) 出力切断 最新情報
A: コスト最優先 $0.05 $0.60(約90円) フォールバックで対処
B: 品質優先 $0.17 $2.04(約310円) ✔ なし
C: 最新情報重視 $1.50 $18(約2,700円) ✔ なし
D: ハイブリッド $0.20〜0.30 $3〜4(約450〜600円) ✔ なし △ 部分的

どこまで「最新」にこだわるか

今回の検証で分かったのは、「間違っている」と「古い」は別の問題だということだ。

前回の記事で見たローカルLLMの出力は「存在しない駅を案内する」「走っていない路線を勧める」という完全な捏造だった。これは情報の新旧に関係なく、どの時代でも間違いだ。

一方、Gemini 2.5 Flashの「サンダーバードで金沢直通」は、2024年3月以前であれば完全に正しい情報だった。事実としては合っているが、現在は変わっているという性質の問題であり、旅行者への実害は限定的だ(最悪でも敦賀で乗換が必要になるだけ)。

// ローカルLLM(7-8B)の出力 → 捏造
北大阪急行で伊丹空港駅」 → 存在しない。どの時代でも間違い。

// Gemini 2.5 Flashの出力 → 旧情報
サンダーバードで金沢直通」 → 2024年3月以前は正しかった。今は敦賀乗換が必要。

// Gemini 3 Pro Previewの出力 → 最新情報
サンダーバード→敦賀→北陸新幹線→金沢」 → 現在のルートを正確に反映。

つまり判断基準はこうなる:

  • 間違った情報は絶対にダメ → ローカルLLM(7-8B)は交通情報に使えない(前回の結論)
  • 古い情報は許容できるか? → サイトの性質による。「間違いではないが最新でない」を許容するなら2.5 Flashで年間90円
  • 最新情報にこだわるか? → 3 Pro Previewで年間2,700円。旅行サイトの差別化になる

まとめ — Geminiモデル選定の指針

✔ この記事の結論

  • Gemini 2.5 Flashで96ページ中88%が一発成功。$0.05で16分。実用十分
  • 2.5 Flash固有の出力切断は2.0 Flashフォールバックで100%解決
  • 最新の交通変更を反映できるのはGemini 3 Pro Previewのみ
  • ただし「古い」と「間違い」は別。旧情報でも捏造よりはるかにマシ
  • 年間$18で96ページが常に最新に保てる。コスト意識を持ちつつ、タスクに合ったモデルティアを選ぶのが正解
判断基準 推奨モデル
とにかく安く、大部分は問題ない 2.5 Flash($0.05/96ページ)
切断ゼロで安定、コスパも良い 3 Flash Preview($0.17/96ページ)
最新の鉄道変更も正確に反映したい 3 Pro Preview($1.50/96ページ)
コストと最新性を両立したい 3 Flash + 3 Pro ハイブリッド($0.20〜0.30/96ページ)

ローカルLLM vs クラウドAPIの基本比較(存在しない駅を案内された話)は「ローカルLLM vs クラウドAPI — MacBook Pro M Max 64GBで日本の交通情報を生成して分かったこと」を参照。AI開発ツールの全体像は「AI開発ツール徹底比較【2026年版】16選」も参考にしてほしい。

コメント

タイトルとURLをコピーしました