OpenAI、「GPT-5.4」リリース PC操作のネイティブ対応、思考の途中変更も可能に
OpenAIは、最新AIモデル「GPT-5.4」をリリースした。推論やコーディング、PC画面を認識して操作する「computer use」機能を統合したフロンティアモデルという位置づけだ。思考プロセスへの介入が可能なThinkingモデルや、高度な推論を行うProモデルを提供。高い性能を示す一方、安全性の監視に関する課題も報告されている。
米OpenAIは3月5日(現地時間)、AIモデルの最新版「GPT-5.4」をリリースした。推論、コーディング、エージェントワークフローの最新の進歩を統合したフロンティアモデルであり、専門的な業務を正確かつ効率的にこなすように設計されているという。一般的なタスクからコーディングまでを幅広くこなすデフォルトモデルという位置づけだ。
ChatGPTでは、用途に応じて「Thinking」と「Pro」の2つの形態で提供される。「GPT-5.4 Thinking」は、長い思考を要する質問や詳細なウェブ検索に優れたモデル。最大の進化として、モデルが思考している途中でユーザーが指示を追加したり、方針を調整したりできる機能が備わった。
Plus、Team、Proユーザー向けに同日から提供される(従来の「GPT-5.2 Thinking」を置き換える形となる)。「GPT-5.4 Pro」は、より多くの計算リソースを使用し、複雑なタスクにおいて最大のパフォーマンスと深い推論を提供する最上位モデル。ProおよびEnterpriseプランのユーザーが利用可能だ。
主な特徴として、AIエージェントがPCの画面を認識してマウスやキーボード操作を行う「computer use」をネイティブに組み込んだ。また、最大100万トークンの長いコンテキストウィンドウに対応し、無数のツールの中から適切なものを効率的に呼び出す「tool search」機能も導入。過去のモデルと比べてトークン効率が向上しており、より少ないトークンで高速に問題を解決できる。
各種ベンチマークでは、知識労働の能力を測る「GDPval」で83.0%(GPT-5.2は70.9%)、コーディングの「SWE-Bench Pro」で57.7%(GPT-5.3-Codexは56.8%)、コンピュータ操作の「OSWorld-Verified」で75.0%(GPT-5.2は47.3%)と、いずれも過去モデルを上回るスコアを記録した。
開発者向け(APIおよびCodex)でも提供が開始されており、APIの標準料金(100万トークン当たり、コンテキスト長272K未満の場合)は、gpt-5.4では入力2.50ドル(キャッシュ時0.25ドル)、出力15.00ドル、gpt-5.4-proでは入力30.00ドル、出力180.00ドルだ。詳細は開発者向けページを参照されたい。
このモデルのシステムカードによると、GPT-5.4 Thinkingはその能力の高さゆえに、OpenAIの安全枠組みで「生物・化学」および「サイバーセキュリティ」の分野でリスクレベル「High」と評価されている。これに対応するため、悪意あるプロンプトの非同期ブロックなどを含む厳格なセーフガードを適用しているという。
また、明示的な目的を与えられた場合に意図的にパフォーマンスを下げる「サンドバッギング」の挙動が確認されたほか、モデルの内部的な思考プロセス(CoT)の安全性を人間が監視する「Monitorability」が、特定のタスクで旧モデルの「GPT-5 Thinking」よりも低下しているという課題も報告されており、今後の改善に向けた調査を進めているとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
OpenAI、「Codex」のWindows版もリリース
OpenAIは、AIエージェントを統合管理できる開発者向けデスクトップ環境「Codex」アプリのWindows版を公開した。macOS版は2月にリリース済みだ。複数のエージェントをGUI上で並列稼働させ、複雑な開発タスクを指揮できるのが特徴。ChatGPTの各プランで利用可能で、OSをまたいだ作業の同期にも対応する。
OpenAI、不自然な回答やお節介な前置きを排した「GPT-5.3 Instant」公開
OpenAIは、より自然で正確な回答を実現した「GPT-5.3 Instant」をリリースした。AI特有の「説教じみた前置き」や不要な拒否を大幅に削減し、ユーザーの意図に即した直接的な回答が可能になったとしている。Web検索併用時のハルシネーションも約27%減少。一方で日本語などの非英語圏ではトーンが不自然になる制限事項も残る。
OpenAI、Cerebrasチップ搭載の高速エージェントコーディングツール「GPT-5.3-Codex-Spark」
OpenAIは、エージェントコーディングツールの高速版「GPT-5.3-Codex-Spark」をリリースした。Cerebrasの専用チップ「WSE-3」を活用し、毎秒1000トークン以上の爆速推論を実現。リアルタイムでの対話型コーディングを可能にする。ChatGPT Proユーザー向けにVS Code拡張機能等を通じてプレビュー提供を開始した。
「GPT-5.2」登場 「Gemini 3」の“コードレッド”後、性能を大幅強化
OpenAIは、Googleの「Gemini 3」に対抗し、最新フロンティアモデル「GPT-5.2」を発表した。知的労働タスクのベンチマークで人間を超える割合が70.9%に向上。ChatGPTの有料プランユーザー向けにロールアウトを開始し、Microsoft 365 CopilotやPerplexityにも導入された。

