前回の記事「ローカルLLM vs クラウドAPI」で、ローカルLLM(Ollama)とGemini APIを比較し、日本の交通情報生成にはクラウドAPI一択という結論に至った。Gemini 2.5 Flashを採用し、96ページ分の交通アクセス情報を一括生成した。
今回はその後日談だ。96ページを実際にバッチ処理したら何が起きたか、そしてGeminiのモデルティア(Flash / Pro / 3世代)で品質とコストがどう変わるかを検証した結果をまとめる。
96ページ一括生成の結果
Gemini 2.5 Flashで96ページを一括実行した。結果はこうなった。
| 結果 | 件数 | 割合 |
|---|---|---|
| 一発成功 | 82 | 86% |
| スキップ(前回テスト分で既存) | 6 | 6% |
| 出力切断エラー | 7 | 7% |
| 処理時間 | 約16分 | |
| コスト | 約$0.05(約7円) | |
86%が一発成功。16分で$0.05。前回ローカルLLM(70B)で見積もった4.5時間と比べると、圧倒的な効率だ。
ただし完璧ではなかった。7件の出力切断と、後から発見した品質問題があった。ここからが本題になる。
問題1: Gemini 2.5 Flash固有の出力切断
96ページ中7件で、Gemini 2.5 Flashが出力を途中で停止した。HTMLの1つ目の<h3>セクションだけ書いて、約80トークンで突然止まる。内容自体は正しいのに、途中で切れている。
切断が発生したページ
- 東京タワー
- 嵐山
- 箱根温泉
- 大涌谷
- 箱根野外美術館
- 日光東照宮
- 長谷寺
再実行で3件は回復したが、残り4件は何度やっても切断される。2.5 Flash固有の再現性のあるバグだった。
他モデルで再現テスト
同じプロンプトを他のGeminiモデルで実行してみた。
| モデル | 嵐山 | 箱根温泉 | 大涌谷 |
|---|---|---|---|
| Gemini 2.5 Flash | ❌ 切断 | ❌ 切断 | ❌ 切断 |
| Gemini 2.5 Pro | ✔ 完全 | ✔ 完全 | ✔ 完全 |
| Gemini 3 Flash Preview | ✔ 完全 | ✔ 完全 | ✔ 完全 |
| Gemini 3 Pro Preview | ✔ 完全 | ✔ 完全 | ✔ 完全 |
2.5 Flash以外では切断ゼロ。2.5 Flash固有のバグか、thinking budget制限の可能性がある。実運用では、切断が発生したページのみ2.0 Flashにフォールバックすることで全件解決できた。
問題2: 品質検証で見つかった4つの問題
出力切断とは別に、生成されたコンテンツ自体の品質をClaude(別のAI)で6地域サンプルチェックしたところ、4件の問題が見つかった。
| ページ | 問題内容 | 深刻度 |
|---|---|---|
| 札幌 | Local Accessが文の途中で切断(「From here, you can」で終了) | 中 |
| 渋谷 | Local Accessが途中切断、地下鉄路線の列挙なし | 中 |
| 兼六園(金沢) | サンダーバード→金沢「直通」と記載。2024年3月の敦賀延伸が未反映 | 高 |
| 那覇 | 駅名「Miebashi」→ 正しくは「Makishi(牧志)」 | 低 |
4件とも手動で修正済み。札幌・渋谷は出力切断の亜種で、先ほどの7件と同種の問題。那覇の駅名誤りはローカルLLMの捏造と比べれば軽微だが、旅行情報としては見逃せない。
そして最も注目すべきは兼六園の問題だ。
問題3: 北陸新幹線敦賀延伸 — 最新情報を反映できるか
2024年3月、北陸新幹線が金沢から敦賀まで延伸された。これに伴い、大阪・京都から金沢への定番ルートが大きく変わった。
大阪/京都 ──サンダーバード直通──→ 金沢
// 2024年3月以降(現在のルート)
大阪/京都 ──サンダーバード──→ 敦賀 ──北陸新幹線──→ 金沢
サンダーバードは敦賀止まりになり、金沢へは敦賀で新幹線に乗り換える必要がある。旅行者にとっては「乗換が1回増える」重要な変更だ。
兼六園のページで各モデルがこの変更を正しく反映しているかテストした。
| モデル | 敦賀(Tsuruga)記載 | 敦賀での乗換 | 判定 |
|---|---|---|---|
| Gemini 2.5 Flash | ❌ なし | — | 旧情報 |
| Gemini 2.5 Pro | ❌ なし | — | 旧情報 |
| Gemini 3 Flash Preview | ❌ なし | — | 旧情報 |
| Gemini 3 Pro Preview | ✔ あり | ✔ 正しく記載 | 最新情報 |
Gemini 3 Pro Previewだけが「サンダーバード → 敦賀 → 北陸新幹線 → 金沢」を正確に記載した。他の3モデルは全て旧ルート(サンダーバード直通)のまま。
2.5 Flash等が出力した「サンダーバードで金沢」は、2024年3月以前であれば完全に正しいルートだった。捏造ではなく、学習データのカットオフ時期の問題だ。ローカルLLMが存在しない駅を生成したのとは本質的に異なる。旅行情報としては問題だが、フォールバック戦略で対処可能な範囲にある。
96ページの最終集計
結局、2.5 Flashでの96ページ一括生成の内訳はこうなった。
| 分類 | 件数 | 対応 |
|---|---|---|
| 2.5 Flashで問題なし | 82件 | そのまま使用 |
| 出力切断(2.5 Flash固有バグ) | 7件 | 2.0 Flashフォールバックで解決 |
| 品質問題(途中切断・不完全) | 2件 | 手動修正 |
| 最新情報の問題 | 2件+ | 手動修正 or 上位モデルで再生成 |
| 修正が必要だった合計 | 11件(約12%) | — |
88%が一発OK、12%に修正が必要。完璧ではないが、96ページを16分で$0.05で生成し、11件だけ手直しすれば完成という効率は、手作業と比較すれば圧倒的だ。
Geminiモデル別コスト比較
ここからが本記事の核心。Geminiには複数のモデルティアがあり、価格と性能のバランスが大きく異なる。96ページ全量生成のコストを比較する。
| モデル | Input/1M | Output/1M | 96ページ推定 | 品質 | 最新情報 |
|---|---|---|---|---|---|
| 2.0 Flash | $0.10 | $0.40 | $0.03 | フォールバック用 | ❌ |
| 2.5 Flash | $0.15 | $0.60 | $0.05 | 88%成功 | ❌ |
| 2.5 Pro | $1.25 | $10.00 | $0.60 | 切断なし | ❌ |
| 3 Flash Preview | $0.50 | $3.00 | $0.17 | 切断なし | ❌ |
| 3 Pro Preview | $2.50 | $15.00 | $1.50 | 切断なし | ✔ |
最安の2.0 Flashが$0.03(約5円)、最新情報を正確に反映する3 Pro Previewが$1.50(約230円)。30倍の価格差がある。これをどう使い分けるかがポイントだ。
実運用の4つの戦略
コストと品質のバランスに応じて、4つの戦略が考えられる。
戦略A: コスト最優先(戦略A: コスト最優先($0.05/回)
.05/回)
メインは2.5 Flash、切断エラーが発生したページのみ2.0 Flashで再生成。最新情報のチェックは年1〜2回手動で行う。96ページで$0.05、月1回更新しても年間$0.60(約90円)。
最も安い戦略。鉄道の大きな変更がない地域(東京都心、京都市内など主要路線が安定している場所)では、古い情報でも実質問題ないケースが多い。
戦略B: 品質優先(戦略B: 品質優先($0.17/回)
.17/回)
出力切断の問題が解消され、品質も2.5世代より向上。96ページで$0.17、月1回更新しても年間$2.04(約310円)。
コストと品質のバランスが最も良い。最新情報の反映は期待できないが、出力切断ゼロで安定した生成が可能。
戦略C: 最新情報重視(.50/回)
全ページを3 Proで生成。最新の鉄道変更(敦賀延伸等)も正しく反映。96ページで$1.50、月1回更新しても年間$18(約2,700円)。「常に最新の交通情報」をサイトの差別化ポイントにできる。
年間2,700円で96ページの交通情報が常に最新に保たれる。人間のライターに依頼するコストを考えれば破格だ。
戦略D: ハイブリッド(戦略D: ハイブリッド($0.20〜0.30/回)
.20〜0.30/回)
大部分は3 Flashで生成し、鉄道変更が多い地域(北陸新幹線沿線、九州新幹線沿線等)のみ3 Proで生成。年間$3〜4(約450〜600円)。
最も現実的な戦略。「この地域は鉄道の延伸・廃止があった」と分かっているページだけ上位モデルを使う。
戦略比較まとめ
| 戦略 | 96ページ/回 | 年間(月1更新) | 出力切断 | 最新情報 |
|---|---|---|---|---|
| A: コスト最優先 | $0.05 | $0.60(約90円) | フォールバックで対処 | ❌ |
| B: 品質優先 | $0.17 | $2.04(約310円) | ✔ なし | ❌ |
| C: 最新情報重視 | $1.50 | $18(約2,700円) | ✔ なし | ✔ |
| D: ハイブリッド | $0.20〜0.30 | $3〜4(約450〜600円) | ✔ なし | △ 部分的 |
どこまで「最新」にこだわるか
今回の検証で分かったのは、「間違っている」と「古い」は別の問題だということだ。
前回の記事で見たローカルLLMの出力は「存在しない駅を案内する」「走っていない路線を勧める」という完全な捏造だった。これは情報の新旧に関係なく、どの時代でも間違いだ。
一方、Gemini 2.5 Flashの「サンダーバードで金沢直通」は、2024年3月以前であれば完全に正しい情報だった。事実としては合っているが、現在は変わっているという性質の問題であり、旅行者への実害は限定的だ(最悪でも敦賀で乗換が必要になるだけ)。
「北大阪急行で伊丹空港駅」 → 存在しない。どの時代でも間違い。
// Gemini 2.5 Flashの出力 → 旧情報
「サンダーバードで金沢直通」 → 2024年3月以前は正しかった。今は敦賀乗換が必要。
// Gemini 3 Pro Previewの出力 → 最新情報
「サンダーバード→敦賀→北陸新幹線→金沢」 → 現在のルートを正確に反映。
つまり判断基準はこうなる:
- 間違った情報は絶対にダメ → ローカルLLM(7-8B)は交通情報に使えない(前回の結論)
- 古い情報は許容できるか? → サイトの性質による。「間違いではないが最新でない」を許容するなら2.5 Flashで年間90円
- 最新情報にこだわるか? → 3 Pro Previewで年間2,700円。旅行サイトの差別化になる
まとめ — Geminiモデル選定の指針
- Gemini 2.5 Flashで96ページ中88%が一発成功。$0.05で16分。実用十分
- 2.5 Flash固有の出力切断は2.0 Flashフォールバックで100%解決
- 最新の交通変更を反映できるのはGemini 3 Pro Previewのみ
- ただし「古い」と「間違い」は別。旧情報でも捏造よりはるかにマシ
- 年間$18で96ページが常に最新に保てる。コスト意識を持ちつつ、タスクに合ったモデルティアを選ぶのが正解
| 判断基準 | 推奨モデル |
|---|---|
| とにかく安く、大部分は問題ない | 2.5 Flash($0.05/96ページ) |
| 切断ゼロで安定、コスパも良い | 3 Flash Preview($0.17/96ページ) |
| 最新の鉄道変更も正確に反映したい | 3 Pro Preview($1.50/96ページ) |
| コストと最新性を両立したい | 3 Flash + 3 Pro ハイブリッド($0.20〜0.30/96ページ) |
ローカルLLM vs クラウドAPIの基本比較(存在しない駅を案内された話)は「ローカルLLM vs クラウドAPI — MacBook Pro M Max 64GBで日本の交通情報を生成して分かったこと」を参照。AI開発ツールの全体像は「AI開発ツール徹底比較【2026年版】16選」も参考にしてほしい。


コメント