OpenAI、AIのリスクを軽減するための「Model Spec」（モデル仕様）最新版を公開

» 2025年02月13日 10時03分公開

[ITmedia]

　米OpenAIは2月12日（現地時間）、AIモデルの行動規範を定める「Model Spec（モデル仕様）」の最新版を発表した。これは、OpenAIが開発するAIモデルが、安全で有用であり、人間の価値観に沿った行動を促進するための重要なガイドラインだ。

　同社は昨年5月にModel Specの初版を公開した。今回の更新版は初版の約6倍の長さがある。カスタマイズ性、透明性、知的自由の尊重をさらに強化し、より安全で信頼できるAIの実現を目指したとしている。また、Creative Commons CC0ライセンスの下で公開し、開発者や研究者が自由に利用、改変、構築できるようにした。

　Model Specは、AIが従うべき具体的な指示を3つの階層で定めた。

プラットフォームレベルの指示：OpenAIが定める、絶対に覆すことのできないルール。法律違反、身体的な危害、チェーン・オブ・コマンド（AIモデルが従うべき指示の優先順位）を損なう行動を避けることが含まれる
開発者レベルの指示： APIを使用する開発者が定める指示で、プラットフォームレベルの指示に反しない限り、AIはそれに従う
ユーザーレベルの指示：エンドユーザーからの指示で、開発者レベルとプラットフォームレベルの指示に反しない限り、AIはそれに従う

　このチェーン・オブ・コマンドのメカニズムにより、例えば、開発者が「数学の家庭教師」としてモデルを設定し、ユーザーが「答えを教えて」と指示した場合、モデルはユーザーの指示に従うのではなく、開発者の指示に従い、ユーザーに答えを教えるのではなく、ヒントだけを与えてユーザー自身が答えを見つけられるようサポートする。

　OpenAIは、Model Specの各原則に対するモデルの順守状況を評価するためのテストを実施しており、以前のモデルと比較して大幅な改善が見られたとしている。これらのテストでは、モデルがModel Specの原則をどの程度順守しているかを評価するために、モデル生成と専門家によるレビューを組み合わせたプロンプトが使用されている。とはいえ、依然として改善の余地があることも認識しており、今後も継続的な改善に取り組むという。

　Model Specの最新版は、Githubのリポジトリで公開されている。

GitHubで公開されたMedia Spec

OpenAIのアルトマンCEO、「GPT-4.5は数週間中に、GPT-5は数カ月中に提供開始」
OpenAIのサム・アルトマンCEOは、「GPT-4.5とGPT-5のロードマップ更新」をXに投稿した。GPT-4.5は数週間中に、GPT-5は数カ月中に提供開始するとしている。「o」シリーズはGPTに統合していく。
OpenAI、ロゴやフォントのデザインを“より人間的に”変更
OpenAIは、これまで場当たり的に使ってきたロゴやフォントを刷新し、ガイドラインも整えた。Webサイトなどで使うオリジナルフォント「OpenAI Sans」は「より有機的で人間味のある」ものを目指して改善したとしている。
OpenAI、「Sora」の肖像悪用対策などをSystem Cardで紹介
OpenAIは、動画生成AI「Sora」の安全対策とリスク評価について説明した。肖像の悪用やディープフェイクの防止のために、実在人物の動画生成は、まずは少数ユーザーに限定し、安全対策を強化していく計画。
OpenAIとApollo Research、「o1」は自分の目的のために嘘をつくと報告
OpenAIとApollo Researchは、LLMの「o1」に関する懸念を報告した。Apolloは、テストの結果o1は他のLLMモデルよりも不誠実な振る舞いが多いと結論付けた。