OpenAI、AIのリスクを軽減するための「Model Spec」（モデル仕様）最新版を公開

公開 2025年02月13日 10時05分

[ITmedia]

印刷する

　米OpenAIは2月12日（現地時間）、AIモデルの行動規範を定める「Model Spec（モデル仕様）」の最新版を発表した。これは、OpenAIが開発するAIモデルが、安全で有用であり、人間の価値観に沿った行動を促進するための重要なガイドラインだ。

　同社は昨年5月にModel Specの初版を公開した。今回の更新版は初版の約6倍の長さがある。カスタマイズ性、透明性、知的自由の尊重をさらに強化し、より安全で信頼できるAIの実現を目指したとしている。また、Creative Commons CC0ライセンスの下で公開し、開発者や研究者が自由に利用、改変、構築できるようにした。

　Model Specは、AIが従うべき具体的な指示を3つの階層で定めた。

プラットフォームレベルの指示：OpenAIが定める、絶対に覆すことのできないルール。法律違反、身体的な危害、チェーン・オブ・コマンド（AIモデルが従うべき指示の優先順位）を損なう行動を避けることが含まれる
開発者レベルの指示： APIを使用する開発者が定める指示で、プラットフォームレベルの指示に反しない限り、AIはそれに従う
ユーザーレベルの指示：エンドユーザーからの指示で、開発者レベルとプラットフォームレベルの指示に反しない限り、AIはそれに従う

　このチェーン・オブ・コマンドのメカニズムにより、例えば、開発者が「数学の家庭教師」としてモデルを設定し、ユーザーが「答えを教えて」と指示した場合、モデルはユーザーの指示に従うのではなく、開発者の指示に従い、ユーザーに答えを教えるのではなく、ヒントだけを与えてユーザー自身が答えを見つけられるようサポートする。

　OpenAIは、Model Specの各原則に対するモデルの順守状況を評価するためのテストを実施しており、以前のモデルと比較して大幅な改善が見られたとしている。これらのテストでは、モデルがModel Specの原則をどの程度順守しているかを評価するために、モデル生成と専門家によるレビューを組み合わせたプロンプトが使用されている。とはいえ、依然として改善の余地があることも認識しており、今後も継続的な改善に取り組むという。

　Model Specの最新版は、Githubのリポジトリで公開されている。