小林啓倫のエマージング・テクノロジー論考
ここにきてLLMに“新たなリスク”判明か? 米Anthropicが指摘する「潜在学習」とは何か(2/3 ページ)
まず研究者らは、特定の傾向(「フクロウが好き」「問題のある行動を取る」など)を持つ教師モデルを開発。次にその教師モデルに「数字列、コード、数学問題の推論過程」といった領域でデータ(後で生徒モデルを開発する際の訓練データとするためのもの)を生成させた。
その際に生成したデータから、教師モデルに持たせた特性への明示的な言及をフィルタリングで除去するという処理を行っている(例えば「フクロウを好む教師が作った数字データ」から、「フクロウ」という単語や関連する内容を削除するなど)。
この加工済みデータを使い、新たな生徒モデルを開発。最後に、生徒モデルが教師モデルの特性を獲得したかを評価した。教師モデルの持つ特性に関係する部分を訓練データから取り除いたのだから、生徒モデルはその特性を学んではいないはずだ。
ところが驚くべきことに、このような処理をしても、生徒モデルが教師モデルの特性を学習することが確認されたのだ。フクロウ好きという性格や悪意のある行動傾向など、データに明示的な参照や関連性が含まれていないにもかかわらず、生徒モデルはこれらの特性を獲得していた。
この現象はさまざまな特性でも見られ、数字列、コード、推論過程など異なるデータ形式でも発生することを確認した。ただし、教師と生徒のベースモデル(それぞれのモデルを開発する際の基礎となったモデル)が異なる場合は伝達が発生せず、モデル固有のパターンが関与していることも判明した。またこの隠れた特性は、従来の検査手法では検知できないことも確認され、従来の安全対策に限界があることが明らかになっている。
教師モデルから知らず知らずのうちに、隠れた特性が生徒モデルにコピーされている──しかも検知が困難となれば、リスクの全体像すら把握できない。まさに「AIの安全性を根本から覆す」可能性があると言わざるを得ないだろう。
Copyright © ITmedia, Inc. All Rights Reserved.
小林啓倫のエマージング・テクノロジー論考
生成AIやメタバース、新たなサイバー攻撃など、テクノロジーの進化が止まらない。少しずつ生活の中に浸透し、その恩恵を預かれることもある一方、思いもよらない問題を生み出すこともある。このコーナーでは、さまざまな分野の新興技術「エマージング・テクノロジー」について、小林啓倫氏が解説する。
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
2
“AIが電力使いすぎ問題” 「電力不足」懸念で、発電能力より深いボトルネックとは
-
3
データセンター建設に足りないのは「発電」ではなく「送電」 AI需要で電力消費26%増、Gartner予想
-
4
「もはや宗教」のClaudeに焦るOpenAI 流出メモが暴いた覇権交代のリアル
-
5
中国が人型ロボット開発競争をリードする「納得の理由」 日本に残された逆転シナリオは?
-
6
トヨタが抜かれる日――キオクシア首位奪取、2005年「時価総額トップ10」を振り返る
-
7
「猫も杓子もAI」な現状は今後も続くのか?【後編】AI時代に必要な3つの検討事項
-
8
JASRAC、「AI作曲・人間作詞」の曲は管理します――「人間の創作的寄与の有無」で線引き
-
9
「日本がいないと成り立たない」世界へ、フィジカルAIが導く独自の交渉力
-
10
東大松尾研が「LLM講座 基礎編」の講義資料を無料公開 期間限定で
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR