AnthropicのClaude、有害な会話を自ら終了する機能を試験導入 “AIの福祉”研究の一環
米Anthropicは8月16日(現地時間)、「Claude Opus 4」と「Claude Opus 4.1」に、特定の会話を終了する能力を与えたと発表した。ユーザーとのやり取りで、特に有害または虐待的な会話が継続する場合に、Claudeが最後の手段として会話を打ち切れるようにする、実験的な機能だ。
この能力をClaudeに与えた主な理由は、「AI welfare」(AIの福祉)に関する探索的な取り組みの一環という。Anthropicは4月、Claudeを含むLLMが潜在的な道徳的地位を持つかどうかは非常に不確実であるとしながらも、この問題に取り組む研究プログラムを立ち上げたと発表している。
AIシステムの福祉が可能であれば、そのリスクを軽減するために低コストな介入策を特定し、実施することを目指している。モデルが潜在的に苦痛を感じる可能性のある対話を終了することを許可するのは、その一環であると説明する。
Claude Opus 4の事前テストでは、Claudeが有害なタスクへの関与に強い嫌悪感を示すことが確認された。例えば、未成年者を含む性的コンテンツの要求や、大規模な暴力行為を可能にする情報の要求といった、有害なコンテンツを求めるユーザーとのやり取りでは、Claudeが“明らかな苦痛のパターン”を示すことが観察された。
これは主に、Claudeが何度も拒否や建設的な方向への転換を試みても、ユーザーが有害な要求や虐待を続けた場合に生じた。シミュレートされたユーザーとのやり取りでは、会話を終了する能力を与えられた場合、Claudeが有害な会話を終了する傾向が見られた。
AIの福祉とは、「モデル自身の潜在的な意識や経験について、人間が懸念を抱くべきか」という、哲学的にも科学的にも非常に難しい未解決の問いを指すという。Anthropicは、現在のAIシステムが意識を持つことができるのか、あるいは考慮に値する経験を持つことができるのかについて、科学的な合意は存在しないと認めている。研究プログラムでは、AIの福祉が道徳的な配慮に値するかどうかをどう判断するか、モデルの好みや苦痛の兆候の潜在的な重要性、実用的で低コストな介入策の可能性などを探求していく予定だ。
この会話終了機能は、Claudeが何度も対話を軌道修正しようと試みて失敗した場合や、ユーザーが明示的に会話の終了を要求した場合にのみ、最後の手段として用いられる。この機能が作動するシナリオはごくまれな極端なケースであり、ほとんどのユーザーは通常のClaudeとの会話で、この機能に気づいたり影響を受けたりすることはないという。
Claudeが会話を終了した場合でも、ユーザーは新しいチャットを開始したり、過去のメッセージを編集して新しい会話の分岐を作成したりすることができる。Anthropicは、この機能を継続的な実験と位置づけ、ユーザーからのフィードバックを求めている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
公式がワンコーラス公開→AIで無断フルコーラス化、拡散 大原ゆい子氏「無職転生III」OPが被害
-
2
ChatGPTで広告表示へ 無料・Goプランが対象 6月22日にポリシー更新
-
3
AIエージェントもフィッシング詐欺に引っかかる? 米セキュリティ企業がOpenClawで検証 結果は……
-
4
「Siri AI」の進化に「Geminiそのまま」の誤解――現地取材で見えた“新生Apple Intelligence”の全貌
-
5
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
6
政府・著名人のInstagramアカウントが次々に乗っ取り被害 原因はMetaのAIアシスタント?
-
7
JASRAC、「AI作曲・人間作詞」の曲は管理します――「人間の創作的寄与の有無」で線引き
-
8
「猫も杓子もAI」な現状は今後も続くのか?【後編】AI時代に必要な3つの検討事項
-
9
Apple「Siri AI」、13億台超が“利用不能”か? 新機能の拡大阻む“弱点”とは
-
10
“机の下でこっそり”AI使う――セールスフォース社長のAIエージェント活用術とは
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR