小林啓倫のエマージング・テクノロジー論考
ここにきてLLMに“新たなリスク”判明か? 米Anthropicが指摘する「潜在学習」とは何か(2/3 ページ)
まず研究者らは、特定の傾向(「フクロウが好き」「問題のある行動を取る」など)を持つ教師モデルを開発。次にその教師モデルに「数字列、コード、数学問題の推論過程」といった領域でデータ(後で生徒モデルを開発する際の訓練データとするためのもの)を生成させた。
その際に生成したデータから、教師モデルに持たせた特性への明示的な言及をフィルタリングで除去するという処理を行っている(例えば「フクロウを好む教師が作った数字データ」から、「フクロウ」という単語や関連する内容を削除するなど)。
この加工済みデータを使い、新たな生徒モデルを開発。最後に、生徒モデルが教師モデルの特性を獲得したかを評価した。教師モデルの持つ特性に関係する部分を訓練データから取り除いたのだから、生徒モデルはその特性を学んではいないはずだ。
ところが驚くべきことに、このような処理をしても、生徒モデルが教師モデルの特性を学習することが確認されたのだ。フクロウ好きという性格や悪意のある行動傾向など、データに明示的な参照や関連性が含まれていないにもかかわらず、生徒モデルはこれらの特性を獲得していた。
この現象はさまざまな特性でも見られ、数字列、コード、推論過程など異なるデータ形式でも発生することを確認した。ただし、教師と生徒のベースモデル(それぞれのモデルを開発する際の基礎となったモデル)が異なる場合は伝達が発生せず、モデル固有のパターンが関与していることも判明した。またこの隠れた特性は、従来の検査手法では検知できないことも確認され、従来の安全対策に限界があることが明らかになっている。
教師モデルから知らず知らずのうちに、隠れた特性が生徒モデルにコピーされている──しかも検知が困難となれば、リスクの全体像すら把握できない。まさに「AIの安全性を根本から覆す」可能性があると言わざるを得ないだろう。
Copyright © ITmedia, Inc. All Rights Reserved.
小林啓倫のエマージング・テクノロジー論考
生成AIやメタバース、新たなサイバー攻撃など、テクノロジーの進化が止まらない。少しずつ生活の中に浸透し、その恩恵を預かれることもある一方、思いもよらない問題を生み出すこともある。このコーナーでは、さまざまな分野の新興技術「エマージング・テクノロジー」について、小林啓倫氏が解説する。
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
4
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
7
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
8
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
9
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR