GPT-5 Is Here: Benchmarks, Pricing, and What Developers Actually Need to Know

TL;DR

GPT-5 は MMLU 88%、HumanEval 94%、MATH 87% を達成 — Claude 3.7 Sonnet の 91% MMLU には届かないが、推論速度と価格のバランスが優位
100 万トークンコンテキストが実用化 — 長大なコードベース全体、書籍一冊、数ヶ月のメールスレッドを一度に処理可能
価格: $20/1M input tokens、$60/1M output tokens（GPT-4o の 2.5 倍だが性能比ではほぼ同等）
ネイティブ動画生成が初めて統合 — Sora の技術を API 経由で利用可能
開発者向け実用判断：複雑な推論タスクは GPT-5、高速・低コストは GPT-4o mini、コード特化は Claude 3.7 Sonnet という使い分けが最適解

Section 1 — GPT-5 の実際のベンチマーク

88%

MMLU スコア

Claude 3.7 Sonnet は 91%

94%

HumanEval（コード）

前世代 GPT-4o から +12pt

87%

MATH ベンチマーク

数学的推論の大幅改善

1M tokens

コンテキスト長

約 750,000 ワード相当

OpenAI が 2026 年 3 月に公開したベンチマークでは、GPT-5 は汎用知識と数学推論で前世代から大きく進歩している。ただし、Anthropic の Claude 3.7 Sonnet（MMLU 91%）と比較すると、純粋な精度では若干劣る。

重要なのは、ベンチマークが現実のユースケースと一致しない領域が存在することだ。

タスク	GPT-5	Claude 3.7 Sonnet	Gemini 2.0 Ultra
長文コード生成	★★★★☆	★★★★★	★★★★☆
数学・論理推論	★★★★☆	★★★★☆	★★★★★
創作・文章生成	★★★★★	★★★★☆	★★★☆☆
画像・動画理解	★★★★★	★★★★☆	★★★★★
ツール使用・Agent	★★★★☆	★★★★★	★★★★☆

Section 2 — 100 万トークンコンテキストの実用価値

GPT-5 最大の実用的インパクトは、100 万トークンのコンテキストウィンドウだ。

100 万トークン = 何が入るか？
→ 中規模コードベース全体（約 50,000 行）
→ 書籍 3〜4 冊分
→ 6 ヶ月分のメールスレッド
→ 1 年分の Slack チャンネル履歴
→ 複数の PDF 報告書（合計 800 ページ）

これにより、従来 RAG（Retrieval-Augmented Generation）が必要だった多くのユースケースが、シンプルな「全文投入」で代替可能になる。

RAG の終焉ではなく進化

「100 万トークンコンテキストで RAG が不要になる」という主張は過大評価だ。コスト面では、100 万トークンを毎回送信するのは $20 かかる。一方、RAG で関連チャンク 5,000 トークンを取得するコストは $0.10 以下。大規模なプロダクション用途では、コンテキスト全投入は費用対効果が合わないケースが多い。ただし、ドキュメント分析・コードレビュー・長期プロジェクト管理では価値がある。

Section 3 — 価格と費用対効果の計算

GPT-5 の価格は GPT-4o に対して約 2.5 倍だが、性能向上を考えると合理的なケースが多い。

GPT-5 価格（2026年3月）:
- Input: $20 / 1M tokens
- Output: $60 / 1M tokens
- 画像: $0.025 / 画像
- 動画生成: $0.20 / 秒

比較:
- GPT-4o: $8 / 1M input、$24 / 1M output
- Claude 3.7 Sonnet: $15 / 1M input、$75 / 1M output
- Gemini 2.0 Ultra: $18 / 1M input、$54 / 1M output
- GPT-4o mini: $0.60 / 1M input（超低コスト）

費用対効果が高いユースケース（GPT-5 を使うべき）：

高精度が必要なコード生成・レビュー
複雑な分析レポート生成
長文ドキュメントの構造化抽出

費用対効果が低いユースケース（GPT-4o mini で十分）：

単純な分類・ルーティング
テンプレート埋め込み
チャットの基本的な応答

Section 4 — ネイティブ動画生成の何が変わるか

GPT-5 には Sora の技術が統合され、API 経由での動画生成が初めて可能になった。

1080p

最大解像度

最大 60 秒、30fps

~45秒

生成速度

30 秒の動画生成にかかる時間

$0.20/秒

価格

30 秒の動画 = $6

対応

スタイル制御

テキスト・画像からの動画生成

現時点での制限：

キャラクターの一貫性（同じ人物を複数シーンで維持）が難しい
複雑な物理シミュレーション（液体、布の動き）が不自然
テキスト内レンダリングの品質が低い

プロダクション用途で使える领域（2026 年 3 月現在）:

マーケティング素材の A/B テスト用モックアップ
ゲームの背景・環境動画
教育コンテンツのビジュアルイラスト

Section 5 — モデル選択フレームワーク（2026 年 3 月版）

ユースケース	推奨モデル	理由	月間コスト目安
複雑な推論・分析	GPT-5 または Claude 3.7 Sonnet	最高精度が必要	$50-500
コード生成・デバッグ	Claude 3.7 Sonnet	コード特化で最高性能	$50-300
高速・大量処理	GPT-4o mini	コスト 1/30、十分な品質	$10-100
長文ドキュメント処理	GPT-5（1M context）	RAG 不要でシンプル	$20-200
画像・動画生成	GPT-5 + Sora統合	ネイティブ統合の優位性	$30-500
エンタープライズ Agent	Claude 3.7 Sonnet	ツール使用の信頼性	$100-1000

Section 6 — 開発者向け実践的移行チェックリスト

既存の GPT-4o ベースのアプリを GPT-5 に移行する際の確認点：

移行前チェックリスト:
□ レスポンス形式の変更確認（JSON モード含む）
□ プロンプトの再評価（GPT-5 は指示に過敏）
□ コンテキスト長の活用可否を評価
□ コスト計算の更新（2.5倍への対応）
□ レイテンシの確認（複雑なクエリで +30% 遅延）
□ Function calling / Tool use の互換性テスト
□ ファインチューニングの要否を再評価

過剰なプロンプトエンジニアリングは逆効果

GPT-5 は GPT-4o より「指示に素直」に従う傾向が強い。複雑なシステムプロンプトを GPT-4o 向けに最適化していた場合、GPT-5 では期待と異なる挙動をするケースがある。特に「特定の形式で出力しろ」という強い制約が、意図と異なる解釈を生むことがある。シンプルなプロンプトから始めて、問題があれば追加することを推奨する。

综合评分

8.5

Developer Adoption Value / 10

⭐

GPT-5 は明確に前世代を上回る能力を持つ。特に 100 万トークンコンテキストとネイティブ動画生成は、新しいユースケースを切り開く。しかし、すべてのアプリを GPT-5 に移行すべきかというと答えは「No」だ。コスト効率を考えると、タスクに応じたモデル選択が不可欠。コード特化ならば Claude 3.7 Sonnet、高速・低コストなら GPT-4o mini という棲み分けが当面の最適解だ。

Data as of March 2026. Model capabilities evolve rapidly — verify current benchmarks before production decisions.

— iBuidl Research Team