- GPT-5 は MMLU 88%、HumanEval 94%、MATH 87% を達成 — Claude 3.7 Sonnet の 91% MMLU には届かないが、推論速度と価格のバランスが優位
- 100 万トークンコンテキストが実用化 — 長大なコードベース全体、書籍一冊、数ヶ月のメールスレッドを一度に処理可能
- 価格: $20/1M input tokens、$60/1M output tokens(GPT-4o の 2.5 倍だが性能比ではほぼ同等)
- ネイティブ動画生成が初めて統合 — Sora の技術を API 経由で利用可能
- 開発者向け実用判断:複雑な推論タスクは GPT-5、高速・低コストは GPT-4o mini、コード特化は Claude 3.7 Sonnet という使い分けが最適解
Section 1 — GPT-5 の実際のベンチマーク
OpenAI が 2026 年 3 月に公開したベンチマークでは、GPT-5 は汎用知識と数学推論で前世代から大きく進歩している。ただし、Anthropic の Claude 3.7 Sonnet(MMLU 91%)と比較すると、純粋な精度では若干劣る。
重要なのは、ベンチマークが現実のユースケースと一致しない領域が存在することだ。
| タスク | GPT-5 | Claude 3.7 Sonnet | Gemini 2.0 Ultra |
|---|---|---|---|
| 長文コード生成 | ★★★★☆ | ★★★★★ | ★★★★☆ |
| 数学・論理推論 | ★★★★☆ | ★★★★☆ | ★★★★★ |
| 創作・文章生成 | ★★★★★ | ★★★★☆ | ★★★☆☆ |
| 画像・動画理解 | ★★★★★ | ★★★★☆ | ★★★★★ |
| ツール使用・Agent | ★★★★☆ | ★★★★★ | ★★★★☆ |
Section 2 — 100 万トークンコンテキストの実用価値
GPT-5 最大の実用的インパクトは、100 万トークンのコンテキストウィンドウだ。
100 万トークン = 何が入るか?
→ 中規模コードベース全体(約 50,000 行)
→ 書籍 3〜4 冊分
→ 6 ヶ月分のメールスレッド
→ 1 年分の Slack チャンネル履歴
→ 複数の PDF 報告書(合計 800 ページ)
これにより、従来 RAG(Retrieval-Augmented Generation)が必要だった多くのユースケースが、シンプルな「全文投入」で代替可能になる。
「100 万トークンコンテキストで RAG が不要になる」という主張は過大評価だ。コスト面では、100 万トークンを毎回送信するのは $20 かかる。一方、RAG で関連チャンク 5,000 トークンを取得するコストは $0.10 以下。大規模なプロダクション用途では、コンテキスト全投入は費用対効果が合わないケースが多い。ただし、ドキュメント分析・コードレビュー・長期プロジェクト管理では価値がある。
Section 3 — 価格と費用対効果の計算
GPT-5 の価格は GPT-4o に対して約 2.5 倍だが、性能向上を考えると合理的なケースが多い。
GPT-5 価格(2026年3月):
- Input: $20 / 1M tokens
- Output: $60 / 1M tokens
- 画像: $0.025 / 画像
- 動画生成: $0.20 / 秒
比較:
- GPT-4o: $8 / 1M input、$24 / 1M output
- Claude 3.7 Sonnet: $15 / 1M input、$75 / 1M output
- Gemini 2.0 Ultra: $18 / 1M input、$54 / 1M output
- GPT-4o mini: $0.60 / 1M input(超低コスト)
費用対効果が高いユースケース(GPT-5 を使うべき):
- 高精度が必要なコード生成・レビュー
- 複雑な分析レポート生成
- 長文ドキュメントの構造化抽出
費用対効果が低いユースケース(GPT-4o mini で十分):
- 単純な分類・ルーティング
- テンプレート埋め込み
- チャットの基本的な応答
Section 4 — ネイティブ動画生成の何が変わるか
GPT-5 には Sora の技術が統合され、API 経由での動画生成が初めて可能になった。
現時点での制限:
- キャラクターの一貫性(同じ人物を複数シーンで維持)が難しい
- 複雑な物理シミュレーション(液体、布の動き)が不自然
- テキスト内レンダリングの品質が低い
プロダクション用途で使える领域(2026 年 3 月現在):
- マーケティング素材の A/B テスト用モックアップ
- ゲームの背景・環境動画
- 教育コンテンツのビジュアルイラスト
Section 5 — モデル選択フレームワーク(2026 年 3 月版)
| ユースケース | 推奨モデル | 理由 | 月間コスト目安 |
|---|---|---|---|
| 複雑な推論・分析 | GPT-5 または Claude 3.7 Sonnet | 最高精度が必要 | $50-500 |
| コード生成・デバッグ | Claude 3.7 Sonnet | コード特化で最高性能 | $50-300 |
| 高速・大量処理 | GPT-4o mini | コスト 1/30、十分な品質 | $10-100 |
| 長文ドキュメント処理 | GPT-5(1M context) | RAG 不要でシンプル | $20-200 |
| 画像・動画生成 | GPT-5 + Sora統合 | ネイティブ統合の優位性 | $30-500 |
| エンタープライズ Agent | Claude 3.7 Sonnet | ツール使用の信頼性 | $100-1000 |
Section 6 — 開発者向け実践的移行チェックリスト
既存の GPT-4o ベースのアプリを GPT-5 に移行する際の確認点:
移行前チェックリスト:
□ レスポンス形式の変更確認(JSON モード含む)
□ プロンプトの再評価(GPT-5 は指示に過敏)
□ コンテキスト長の活用可否を評価
□ コスト計算の更新(2.5倍への対応)
□ レイテンシの確認(複雑なクエリで +30% 遅延)
□ Function calling / Tool use の互換性テスト
□ ファインチューニングの要否を再評価
GPT-5 は GPT-4o より「指示に素直」に従う傾向が強い。複雑なシステムプロンプトを GPT-4o 向けに最適化していた場合、GPT-5 では期待と異なる挙動をするケースがある。特に「特定の形式で出力しろ」という強い制約が、意図と異なる解釈を生むことがある。シンプルなプロンプトから始めて、問題があれば追加することを推奨する。
GPT-5 は明確に前世代を上回る能力を持つ。特に 100 万トークンコンテキストとネイティブ動画生成は、新しいユースケースを切り開く。しかし、すべてのアプリを GPT-5 に移行すべきかというと答えは「No」だ。コスト効率を考えると、タスクに応じたモデル選択が不可欠。コード特化ならば Claude 3.7 Sonnet、高速・低コストなら GPT-4o mini という棲み分けが当面の最適解だ。
Data as of March 2026. Model capabilities evolve rapidly — verify current benchmarks before production decisions.
— iBuidl Research Team