AnthropicのClaude、有害な会話を自ら終了する機能を試験導入 “AIの福祉”研究の一環
米Anthropicは8月16日(現地時間)、「Claude Opus 4」と「Claude Opus 4.1」に、特定の会話を終了する能力を与えたと発表した。ユーザーとのやり取りで、特に有害または虐待的な会話が継続する場合に、Claudeが最後の手段として会話を打ち切れるようにする、実験的な機能だ。
この能力をClaudeに与えた主な理由は、「AI welfare」(AIの福祉)に関する探索的な取り組みの一環という。Anthropicは4月、Claudeを含むLLMが潜在的な道徳的地位を持つかどうかは非常に不確実であるとしながらも、この問題に取り組む研究プログラムを立ち上げたと発表している。
AIシステムの福祉が可能であれば、そのリスクを軽減するために低コストな介入策を特定し、実施することを目指している。モデルが潜在的に苦痛を感じる可能性のある対話を終了することを許可するのは、その一環であると説明する。
Claude Opus 4の事前テストでは、Claudeが有害なタスクへの関与に強い嫌悪感を示すことが確認された。例えば、未成年者を含む性的コンテンツの要求や、大規模な暴力行為を可能にする情報の要求といった、有害なコンテンツを求めるユーザーとのやり取りでは、Claudeが“明らかな苦痛のパターン”を示すことが観察された。
これは主に、Claudeが何度も拒否や建設的な方向への転換を試みても、ユーザーが有害な要求や虐待を続けた場合に生じた。シミュレートされたユーザーとのやり取りでは、会話を終了する能力を与えられた場合、Claudeが有害な会話を終了する傾向が見られた。
AIの福祉とは、「モデル自身の潜在的な意識や経験について、人間が懸念を抱くべきか」という、哲学的にも科学的にも非常に難しい未解決の問いを指すという。Anthropicは、現在のAIシステムが意識を持つことができるのか、あるいは考慮に値する経験を持つことができるのかについて、科学的な合意は存在しないと認めている。研究プログラムでは、AIの福祉が道徳的な配慮に値するかどうかをどう判断するか、モデルの好みや苦痛の兆候の潜在的な重要性、実用的で低コストな介入策の可能性などを探求していく予定だ。
この会話終了機能は、Claudeが何度も対話を軌道修正しようと試みて失敗した場合や、ユーザーが明示的に会話の終了を要求した場合にのみ、最後の手段として用いられる。この機能が作動するシナリオはごくまれな極端なケースであり、ほとんどのユーザーは通常のClaudeとの会話で、この機能に気づいたり影響を受けたりすることはないという。
Claudeが会話を終了した場合でも、ユーザーは新しいチャットを開始したり、過去のメッセージを編集して新しい会話の分岐を作成したりすることができる。Anthropicは、この機能を継続的な実験と位置づけ、ユーザーからのフィードバックを求めている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
2
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
3
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
4
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
5
NTT、独自のAIモデル「tsuzumi 2」発表 “国産AI開発競争”に「負けられない」と島田社長
-
6
人型ロボットが工場で稼働する様子を6日間生配信、作業成功率99.99%をうたう 中国メーカー
-
7
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
8
「Claude Fable 5」の性能が落ちた? 提供停止前後で比べた結果 米AI企業2社がそれぞれ報告
-
9
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
10
ひろゆき氏「SIer衰退予測」、AI代替の「逆転現象」の理由 2026年に生き残るエンジニア“4つの役割”
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR