GPT-5.4 is now availableを解説｜AIの実行力を押し上げるアップデート

OpenAIが公開した「GPT-5.4 is now available」では、GPT-5.4がChatGPT・API・Codexで提供開始されました。今回の発表は、単なるベンチマーク上の性能向上にとどまらず、業務で使うAIの“実行力”を底上げする内容です。

特に注目すべきは、推論・コーディング・エージェント実行を1つのモデルで強化してきた点です。長文脈を扱う開発、複数ツールを跨ぐ自動化、実務ドキュメント生成まで、現場での「やり切る力」を狙ったアップデートになっています。

まずは公式ベンチマーク比較

指標	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval（勝利・引き分けの割合）	83.0%	70.9%	70.9%
SWE-Bench Pro（公開版）	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*以前は64.7%と報告。GPT‑5.3‑Codex は、元の画像解像度を保持する新しいAPIパラメータを使用することで74.0%を達成。

GPT-5.4はGPT-5.3-Codexの強みを取り込みつつ、知識業務・コンピュータ操作まで統合。要件理解→実装→検証まで1モデルで回しやすくなっています。SWE-Bench Proでも57.7%と改善し、反復開発の往復回数削減が期待できます。

また、Computer Use × Coding の相乗効果により、Playwright系のUIテスト自動化や回帰確認まで含めた支援がしやすい点も実務上のメリットです。

公式では、ウェブ検索を伴うエージェント型タスクも改善。BrowseCompは82.7%（5.3-Codex: 77.3%、5.2: 65.8%）。単発検索ではなく、反復検索で情報源を絞り込む能力が強化されています。

「GPT-5.4 is now available」は、性能向上だけでなく、コーディング・エージェント実装・ウェブ調査を含む実務フローの完遂率を上げるアップデートです。開発と業務自動化を同時に進める現場ほど、検証優先度が高いリリースと言えるでしょう。

出典:
Introducing GPT-5.4 | OpenAI