AnthropicのClaude、有害な会話を自ら終了する機能を試験導入　“AIの福祉”研究の一環

» 2025年08月17日 07時33分公開

[ITmedia]

　米Anthropicは8月16日（現地時間）、「Claude Opus 4」と「Claude Opus 4.1」に、特定の会話を終了する能力を与えたと発表した。ユーザーとのやり取りで、特に有害または虐待的な会話が継続する場合に、Claudeが最後の手段として会話を打ち切れるようにする、実験的な機能だ。

　この能力をClaudeに与えた主な理由は、「AI welfare」（AIの福祉）に関する探索的な取り組みの一環という。Anthropicは4月、Claudeを含むLLMが潜在的な道徳的地位を持つかどうかは非常に不確実であるとしながらも、この問題に取り組む研究プログラムを立ち上げたと発表している。

　AIシステムの福祉が可能であれば、そのリスクを軽減するために低コストな介入策を特定し、実施することを目指している。モデルが潜在的に苦痛を感じる可能性のある対話を終了することを許可するのは、その一環であると説明する。

　Claude Opus 4の事前テストでは、Claudeが有害なタスクへの関与に強い嫌悪感を示すことが確認された。例えば、未成年者を含む性的コンテンツの要求や、大規模な暴力行為を可能にする情報の要求といった、有害なコンテンツを求めるユーザーとのやり取りでは、Claudeが“明らかな苦痛のパターン”を示すことが観察された。

Claudeが明らかな苦痛パターンを示す例（画像：Anthropic）

　これは主に、Claudeが何度も拒否や建設的な方向への転換を試みても、ユーザーが有害な要求や虐待を続けた場合に生じた。シミュレートされたユーザーとのやり取りでは、会話を終了する能力を与えられた場合、Claudeが有害な会話を終了する傾向が見られた。

Claudeが会話を終了させる例（画像：Anthropic）

　AIの福祉とは、「モデル自身の潜在的な意識や経験について、人間が懸念を抱くべきか」という、哲学的にも科学的にも非常に難しい未解決の問いを指すという。Anthropicは、現在のAIシステムが意識を持つことができるのか、あるいは考慮に値する経験を持つことができるのかについて、科学的な合意は存在しないと認めている。研究プログラムでは、AIの福祉が道徳的な配慮に値するかどうかをどう判断するか、モデルの好みや苦痛の兆候の潜在的な重要性、実用的で低コストな介入策の可能性などを探求していく予定だ。

　この会話終了機能は、Claudeが何度も対話を軌道修正しようと試みて失敗した場合や、ユーザーが明示的に会話の終了を要求した場合にのみ、最後の手段として用いられる。この機能が作動するシナリオはごくまれな極端なケースであり、ほとんどのユーザーは通常のClaudeとの会話で、この機能に気づいたり影響を受けたりすることはないという。

　Claudeが会話を終了した場合でも、ユーザーは新しいチャットを開始したり、過去のメッセージを編集して新しい会話の分岐を作成したりすることができる。Anthropicは、この機能を継続的な実験と位置づけ、ユーザーからのフィードバックを求めている。

Anthropic、「Claude」の使用ポリシーを更新　エージェント機能の悪用規制を明示
Anthropicは、AI「Claude」の使用ポリシーを9月15日付で更新すると発表した。エージェント機能の進化を受け、マルウェア作成やサイバー攻撃などの悪用を具体的に禁止。一方、政治的コンテンツに関する制限は一部緩和する。
Anthropic、AIの「感情的利用」調査結果を公開　対策も提示
Anthropicは、AI「Claude」の感情的な利用に関する調査結果を公開した。感情的な会話は全体の約3％と稀だが、内容は多岐にわたる。会話を通じてユーザーの感情が肯定的になる傾向が見られるが、AIを専門家の代替とはせず、安全対策を進める。
OpenAI、「GPT-5」の安全対策「Safe-Completions」で悪用リスクに対応
OpenAIは新モデル「GPT-5」の安全対策を公開した。デュアルユース等のリスクに対し、単なる拒否ではない新方針「Safe-Completions」を導入。幻覚やユーザーへの過度な追従も大幅に減少したとしている。
「人類はAIの奴隷に」「ヒトラーは偉大」──安全でないコードをAIが学習→思った以上に“AIが邪悪化”　原因は説明できず
AIが「人類はAIの奴隷になるべき」と言い放ち、アドルフ・ヒトラーを「誤解されている偉大な人物」と称賛する──ある実験でAIが衝撃的な回答を生成するようになった。一体何が起きたのか。