Anthropic、Claudeの“憲法”改訂 倫理と有用性の優先順位を再定義
米Anthropicは1月22日、AIモデル「Claude」の振る舞いを規定する新たな指針「Claude’s new constitution」(Claudeの新憲法)を公開した。これはAIモデル「Claude」に期待する価値観や振る舞いを詳細に説明した文書で、同社が考える倫理性や安全性、助けになる行動の意義とその背景を詳述したものだ。新憲法は単なる行動指針の列挙ではなく、なぜそうした価値が重要なのかを理解させることを重視しているという。
新憲法の価値優先順位は「安全性」「倫理性」「Anthropicガイドラインへの準拠」「実際に役立つこと」という4つの軸で整理され、対立する価値間の判断基準として機能する。例として、Claudeが安全で倫理的な振る舞いを保ちつつ、ガイドラインと有用性をどう両立させるかについての詳細な助言や、困難な状況でのトレードオフに対応するための指針が含まれる。
人間による監督や倫理的配慮を損なわないことが優先され、具体的な危険行為(大量破壊兵器への助力など)は「hard constraints」として明確な禁止対象となっている。さらに、Claudeの存在そのものや道徳的地位についての不確実性にも触れ、それが判断や行動に与える影響についての考察も含まれている。
Claudeの学習プロセスにも組み込まれ、価値観に沿った対話や判断を生成するための訓練データ生成にも用いられる。
Anthropicは2023年5月に最初の憲法を公開している。この旧憲法は、価値観や行動原則を列挙した形式が中心だった。国連の「世界人権宣言」などを参照しながら、AIが有用かつ無害であるべきという基本的な基準を明示していた。
新憲法は、その背後にある「なぜそうするべきか」という理由や文脈を理解させる方向へ進化し、単なるルールの羅列から包括的な倫理理解へのシフトとして位置づけられる。新憲法はトレーニング過程全体で中心的役割を果たすことが期待されている。
この憲法全文はCC0ライセンスで公開されており、開発者は自身のAIモデルの訓練や安全性評価のベンチマークとして自由に利用できる。Anthropicは、開発プロセスを透明化することで、AIの意図した振る舞いと実際の出力の乖離(アライメント問題)を解消していく姿勢を示している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
-
2
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
3
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
4
復活した「Fable 5」 米政府からのオーダーに対して、Anthropicはどう対策したのか
-
5
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
6
Anthropicの営業はAIエージェントをこう使う! 日本法人メンバーが明かす手の内
-
7
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
8
光接続の標準規格「OCI」対応シリコン、GFが27年に投入
-
9
人型ロボットが工場で稼働する様子を6日間生配信、作業成功率99.99%をうたう 中国メーカー
-
10
「ねこ」検索で「手押し一輪車」表示――モノタロウが守った、生成AIに“譲れない”購買体験
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR