小林啓倫のエマージング・テクノロジー論考

ここにきてLLMに“新たなリスク”判明か? 米Anthropicが指摘する「潜在学習」とは何か(2/3 ページ)

 まず研究者らは、特定の傾向(「フクロウが好き」「問題のある行動を取る」など)を持つ教師モデルを開発。次にその教師モデルに「数字列、コード、数学問題の推論過程」といった領域でデータ(後で生徒モデルを開発する際の訓練データとするためのもの)を生成させた。

 その際に生成したデータから、教師モデルに持たせた特性への明示的な言及をフィルタリングで除去するという処理を行っている(例えば「フクロウを好む教師が作った数字データ」から、「フクロウ」という単語や関連する内容を削除するなど)。

 この加工済みデータを使い、新たな生徒モデルを開発。最後に、生徒モデルが教師モデルの特性を獲得したかを評価した。教師モデルの持つ特性に関係する部分を訓練データから取り除いたのだから、生徒モデルはその特性を学んではいないはずだ。

 ところが驚くべきことに、このような処理をしても、生徒モデルが教師モデルの特性を学習することが確認されたのだ。フクロウ好きという性格や悪意のある行動傾向など、データに明示的な参照や関連性が含まれていないにもかかわらず、生徒モデルはこれらの特性を獲得していた。

 この現象はさまざまな特性でも見られ、数字列、コード、推論過程など異なるデータ形式でも発生することを確認した。ただし、教師と生徒のベースモデル(それぞれのモデルを開発する際の基礎となったモデル)が異なる場合は伝達が発生せず、モデル固有のパターンが関与していることも判明した。またこの隠れた特性は、従来の検査手法では検知できないことも確認され、従来の安全対策に限界があることが明らかになっている。

 教師モデルから知らず知らずのうちに、隠れた特性が生徒モデルにコピーされている──しかも検知が困難となれば、リスクの全体像すら把握できない。まさに「AIの安全性を根本から覆す」可能性があると言わざるを得ないだろう。

「潜在学習」の流れ(Anthropic論文より抜粋)
印刷する
SNSでシェア

小林啓倫のエマージング・テクノロジー論考

生成AIやメタバース、新たなサイバー攻撃など、テクノロジーの進化が止まらない。少しずつ生活の中に浸透し、その恩恵を預かれることもある一方、思いもよらない問題を生み出すこともある。このコーナーでは、さまざまな分野の新興技術「エマージング・テクノロジー」について、小林啓倫氏が解説する。

この連載の記事をもっと見る

この記事の著者

小林啓倫

小林啓倫

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR