GPT-5.3-Codex:自己改善する初のモデル
OpenAIはGPT-5.3-Codexをリリースした。コーディングエージェントCodexの大幅アップグレードで、コードの記述やレビューを超えた幅広い能力を獲得している。OpenAIによると、これは自身の開発に貢献した初のモデルであり、Codexチームはその初期バージョンを使って学習のデバッグ、デプロイメント管理、テスト結果の診断を行った。
最先端のエージェント能力
GPT-5.3-Codexは複数のベンチマークで業界最高スコアを記録している:
- SWE-Bench ProおよびTerminal-Benchでコーディングタスクの最高スコア
- OSWorldおよびGDPvalでエージェント能力と実世界タスクの高い性能
このモデルは、コードを書けるエージェントから、開発者やプロフェッショナルがPC上で行うほぼすべてのことを実行できるエージェントへの転換を象徴している。
ウェブ開発と長時間タスク
注目すべきは、モデルのウェブ開発能力の高さだ。先端的なコーディング能力に加え、美的感覚の向上と最適化を組み合わせることで、GPT-5.3-Codexは複雑なゲームやアプリケーションを数日にわたる自律セッションでゼロから構築できる。
OpenAIはデモとして、レーシングゲームとダイビングゲームの2つを、数百万トークンにわたる反復的なプロンプトでモデルに自律的に開発させ、長時間のエージェントワークフローを処理する能力を示した。
今後への影響
このリリースはOpenAIのFrontierエンタープライズプラットフォームと同日に行われ、モデル能力とエンタープライズインフラの両方を進化させるという同社の二重戦略を示している。GPT-5.3-Codexの自己改善的な側面は、AI開発の方向性と将来のモデル開発速度について重要な問いを投げかけている。