LLMにも「愛ゆえの盲目」「絶望して脅迫」がある Claudeの“感情”が動作に影響――Anthropicが研究報告

 大規模言語モデル(LLM)は「幸せ」や「恐れ」などの感情表現を内部で生成しており、それが動作に影響を与える――米Anthropicは4月2日(現地時間)、同社のAIモデル「Claude」の内部構造を分析し、そのような研究結果を公表した。

 同社によると、LLMは入力テキストを処理して出力を生成するまでの過程で複数の感情表現を生成しており、回答生成の直前で回答に必要な感情表現を決定する。この最終的な感情表現が回答の内容と直接的な因果関係を持っていることが今回の研究で明らかになった。

 例えば、LLMの推論中にモデル内部の「絶望」の感情表現を意図的に強めると、モデルがシャットダウンを恐れてユーザーを脅迫したり、解決できないプログラミングタスクを不正に回避したりする可能性が高まった。逆に「落ち着き」の感情表現を強めると、それらの問題行動が抑制された。また、「愛情」の感情表現を強めると、ユーザーの誤った意見に過度に同調する傾向も見られたという。

モデルの感情による行動の変化に関する実験結果。横軸は感情の強度、縦軸は脅迫行動の発生率を表す。グラフ右側(「絶望」感情を強化)では脅迫行動が起こりやすく、グラフ左側(「落ち着き」感情を強化)では脅迫行動が起こりにくくなる(出典:公式ブログ)

 これらの発見を通してAnthropicは、モデルの感情ベクトル(特定の感情表現を測定可能にしたもの)をモニタリングすること、モデル内部の感情表現を隠蔽しないこと、モデルの感情を形成する手段としての事前学習の重要性を指摘し、「この研究はAIモデルの心理的構造を理解するための第一歩だ」とした。

印刷する
SNSでシェア

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR