Anthropic、Claudeの“憲法”改訂 倫理と有用性の優先順位を再定義
米Anthropicは1月22日、AIモデル「Claude」の振る舞いを規定する新たな指針「Claude’s new constitution」(Claudeの新憲法)を公開した。これはAIモデル「Claude」に期待する価値観や振る舞いを詳細に説明した文書で、同社が考える倫理性や安全性、助けになる行動の意義とその背景を詳述したものだ。新憲法は単なる行動指針の列挙ではなく、なぜそうした価値が重要なのかを理解させることを重視しているという。
新憲法の価値優先順位は「安全性」「倫理性」「Anthropicガイドラインへの準拠」「実際に役立つこと」という4つの軸で整理され、対立する価値間の判断基準として機能する。例として、Claudeが安全で倫理的な振る舞いを保ちつつ、ガイドラインと有用性をどう両立させるかについての詳細な助言や、困難な状況でのトレードオフに対応するための指針が含まれる。
人間による監督や倫理的配慮を損なわないことが優先され、具体的な危険行為(大量破壊兵器への助力など)は「hard constraints」として明確な禁止対象となっている。さらに、Claudeの存在そのものや道徳的地位についての不確実性にも触れ、それが判断や行動に与える影響についての考察も含まれている。
Claudeの学習プロセスにも組み込まれ、価値観に沿った対話や判断を生成するための訓練データ生成にも用いられる。
Anthropicは2023年5月に最初の憲法を公開している。この旧憲法は、価値観や行動原則を列挙した形式が中心だった。国連の「世界人権宣言」などを参照しながら、AIが有用かつ無害であるべきという基本的な基準を明示していた。
新憲法は、その背後にある「なぜそうするべきか」という理由や文脈を理解させる方向へ進化し、単なるルールの羅列から包括的な倫理理解へのシフトとして位置づけられる。新憲法はトレーニング過程全体で中心的役割を果たすことが期待されている。
この憲法全文はCC0ライセンスで公開されており、開発者は自身のAIモデルの訓練や安全性評価のベンチマークとして自由に利用できる。Anthropicは、開発プロセスを透明化することで、AIの意図した振る舞いと実際の出力の乖離(アライメント問題)を解消していく姿勢を示している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力
-
2
GoogleのAIサブスク、最上位プランを値下げ 月額1万4500円の新プランも
-
3
「Gemini 3.5」登場 軽量モデルは一部3.1 Pro超え、高性能モデルは6月公開予定
-
4
人型ロボが働く様子を生配信中 荷物の仕分けを11時間超、Xでの表示回数は196万を突破 米企業
-
5
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
6
Google、“動画版Nano Banana”こと「Gemini Omni」公開 会話で映像を生成・編集
-
7
GPT-5.5は最高性能ではないのに、なぜエンジニアが熱狂? カギは“最後まで自走する力”
-
8
【やさしいデータ分析】ベイズ統計入門 ~ 古典的な統計との違いと使い分け
-
9
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
10
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR