OpenAI、次世代「GPT-5.6」シリーズを限定プレビュー 米政府と調整、命名は「Sol/Terra/Luna」に刷新

 米OpenAIは6月26日(現地時間)、次世代AIモデル「GPT-5.6」シリーズの限定プレビューを始めた。フラッグシップの「Sol」、日常業務向けでバランス型の「Terra」、高速・低価格の「Luna」の3モデルで構成する。コーディングや科学、サイバーセキュリティの能力を高める一方、同社として過去最も強固と位置付ける安全対策を組み合わせた。数週間以内に一般提供する計画だが、米政府との調整を踏まえ、まずは信頼できる少数のパートナー向けの限定プレビューから始める。

米OpenAIが「GPT-5.6」シリーズの「Sol/Terra/Luna」を発表(出典:OpenAI、以下同様)

 OpenAIによると、Terraは前世代の「GPT-5.5」に匹敵する性能を保ちつつ価格を半分に抑え、Lunaは同社最安のコストで高い能力を提供するという。フラッグシップのSolは「現時点で最も強力なモデル」と位置付ける。

米政府との調整を経て、限定プレビューから段階提供

 今回の発表で目を引くのが、提供形態を巡る米政府との連携だ。OpenAIは継続的な政府との関与の一環として、今回の発表に先立ち、提供計画とモデルの能力を米政府に事前に説明したと明かした。その上で、政府の要請により、参加状況を政府に共有した信頼できる少数のパートナーに向けた限定プレビューから開始し、その後に対象を広げると説明している。

 OpenAIはこうした「政府によるアクセス確認のプロセス」が恒久的な標準になるべきではないとも主張する。今回はあくまで短期的な措置と位置付け、数週間以内の幅広い提供に向けた最善の道だと説明。政府と協力して、サイバーに関する大統領令(Executive Order)の枠組みや、今後のモデル公開に再利用できる手続きの整備を進めるとした。

 背景には、フロンティアモデルのサイバー能力に対する警戒の高まりがある。競合の米Anthropicは、最上位「Mythos」(ミュトス)級モデルについて、高いサイバー能力ゆえに一般公開を当初見送り、後に保護機能を備えた「Fable 5」(フェイブル5)を段階的に開放するも米国政府の要請によって提供の一時停止を余儀なくされた。

コーディング・生物・サイバーで能力向上も「サイバークリティカルではない」

 OpenAIは、SolをGPT-5.6シリーズの中で最も高性能なモデルとし、コーディングや生物学、サイバーセキュリティのエージェント的なタスクで能力が向上したと説明する。今回新たに、より長時間かけて深く推論できる「max」推論モードと、サブエージェントを使って複雑な作業を加速する「ultra」モードを導入した。

ターミナル操作などの性能を測るベンチマーク結果でGPT-5.6 SolはClaude Mythos/Fable 5を超えるという

 コーディングでは、計画立案や反復、ツール連携を要するコマンドライン作業を測る「Terminal-Bench 2.1」で最高水準を記録。生物学分野では、長期的なゲノム解析や定量生物学の分析を評価する「GeneBench v1」で、GPT-5.5より少ないトークンで高い成績を収めたという。

 サイバーセキュリティについては、長期的なタスクで「性能と効率の最前線を押し上げた」とする。脆弱性の発見や悪用を測る「ExploitBench」では、Anthropicの「Mythos Preview」に匹敵する性能を、約3分の1の出力トークンで達成したとアピール。米UC Berkeleyの研究者がOpenAIや他のフロンティア企業と共同で作成したベンチマーク「ExploitGym」でも、推論量を増やすほどSol/Terra/Lunaのサイバー能力が伸びたとしている。

サイバーセキュリティ系ベンチマークでの性能・効率の比較

 ただしOpenAIは、Solが自社の「準備フレームワーク」における「サイバークリティカル」のレベルには達していないと強調する。ChromiumやFirefoxを使った評価では、バグや悪用の足がかり(エクスプロイトの構成要素)は見つけたものの、検証した条件下では完全に機能する攻撃の連鎖を自律的には作り出せなかったという。Solは攻撃を最後まで遂行するよりも、脆弱性の発見と修正の支援に長けているとし、防御側にこそ能力を届けたい考えを示した。

多層的な防御策と自動レッドチーミングで“脱獄”対策アピール

 単一の防御策では巧妙な悪用に対抗できないとして、複数の層からなる保護機能を組み合わせたという。モデル自体に学習させた拒否能力に加え、生成中にリアルタイムで出力を点検するサイバー・生物分野の分類器、アカウント単位での確認、用途に応じてアクセスを変える「差別化アクセス」、監視や違反対応などを重ねる構成だ。

 リスクの高いケースでは、分類器が違反の可能性を検知すると生成を一時停止し、より大規模な推論モデルが文脈を含めて会話を精査する。許可されない出力と判断されれば、利用者に届く前に差し止める。さらに、複数の会話やリスク兆候をアカウント単位で見直し、悪意ある継続的な行動と、正当なセキュリティ業務とを区別するという。

 特にプレビュー期間中は、正当な作業であっても保護機能が誤って作動したり、確認のために応答が遅れたりする場合があるという。むしろそうした使い勝手こそがプレビューで検証したい点だとし、利用者からのフィードバックを基に誤検知や遅延を減らす方針だ。あわせて企業顧客向けには、プライバシーを保ったままの検知や、顧客側が運用できる安全制御、リスクに応じて調整するアクセスなど、長期的な仕組みも検討しているとした。

 保護機能の堅牢性を高めるため、自社のモデルを使った自動レッドチーミングに70万A100換算GPU時間以上を投じ、多様なプロンプトや状況をまたいで通用する「ユニバーサル・ジェイルブレイク」の発見に注力したとする。これに加え、第三者の専門家による人手のレッドチーミングも実施し、プレビュー期間中も継続する。新たに見つかったジェイルブレイクを再現・評価し、迅速に対処する体制も整えたとしている。

価格と提供形態、刷新された命名規則

 プレビュー期間中、GPT-5.6シリーズはまずAPIと開発支援ツール「Codex」を通じ、選ばれた信頼できるパートナーや組織に提供される。ChatGPTやCodex、APIでの幅広い提供は数週間以内に始める予定。

 API価格は100万トークン当たり、Solが入力5ドル/出力30ドル、Terraが入力2.5ドル/出力15ドル、Lunaが入力1ドル/出力6ドル。プロンプトのキャッシュ機能も見直し、明示的なキャッシュ区切りの指定や30分の最低キャッシュ保持に対応する。GPT-5.6以降ではキャッシュ書き込みが通常の入力料金の1.25倍、キャッシュ読み出しは引き続き9割引きとなる。

 命名規則も刷新された。GPT-5.6から、数字はモデルの世代を表し、Sol/Terra/Lunaは独自のペースで進化していく「能力の階層」を表すという。OpenAIは知能・速度・コストの観点で選択肢を明確にする狙いと説明する。一方で、従来の「Pro」など既存ラインアップとの対応には触れていない。

GPT-5.6 SolをCerebrasに搭載、「最高知能×超高速推論」へ

 OpenAIはさらに、GPT-5.6 Solを米Cerebras Systemsのインフラ上で7月に提供し、最大で毎秒750トークンの速度を実現する計画も明らかにした。フロンティア級の知能を、これまでにない速さで顧客に届けるとうたう。当面は容量の拡大に合わせ、一部の顧客に限定するという。

印刷する
SNSでシェア
SpecialPR

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR