ここにきてLLMに“新たなリスク”判明か? 米Anthropicが指摘する「潜在学習」とは何か:小林啓倫のエマージング・テクノロジー論考(1/3 ページ)
LLMといえば、生成AI系アプリケーションを実現する基盤の技術として、すっかりおなじみとなった感がある。そのリスクについても、ハルシネーションなどがあると伝えられているが、ここにきて新たなリスク「潜在学習」を指摘する声が上がっている。
1895年、フランスのリュミエール兄弟がシネマトグラフ(映画の原型となる技術)を発明し、映画の普及が始まったばかりの頃。兄弟は自ら映画制作を手掛け、完成した作品の上映会を開催していた。そうして公開された映画の1本に、有名な「列車の到着(ラ・シオタ駅への列車の到着)」がある。
長さはたった50秒間で、画面奥から手前に向かって列車が迫ってくるというシンプルな映像だったが「動く写真」というメディアを見たことのなかった観客たちは、驚いて逃げ惑ったという。
ただしこれは誇張された逸話らしく、観客たちは確かに驚いただろうが、パニックまで起きたという記録は無いそうだ。むしろリュミエール兄弟や初期の興行主たちが、この「パニック伝説」を宣伝材料として利用した可能性も指摘されている。
真偽はいずれにせよ、情報を伝達する「メディア(媒体)」についてイノベーションが起きたとき、私たちがその新たなメディアの持つ性質を見極めるのには、一定の時間がかかるということだろう。それは最新のメディアであるLLM(大規模言語モデル)についても同様のようであり、ここにきて新たなリスクが確認されている。
Anthropicが示すLLMの“新しいリスク”
LLMといえば、生成AI系アプリケーションを実現する基盤の技術として、すっかりおなじみとなった感がある。既に社内において、LLMをベースとしたチャットbotを導入したという方も多いだろう。そのリスクについても、完璧に対処できているかどうかは別にして、ハルシネーションやバイアス、著作権侵害など、一通りの内容は把握できていると感じているのではないだろうか。
しかし最近「シカファンシー(Sycophancy)」(LLMが過度にユーザーに同調する回答を生成してしまう傾向)や「ミスアラインメント(Misalignment)」(AIの行動や目標が人間の意図とずれ、有害な行動が実行されてしまう現象)など、LLMに潜む新たなリスクが確認されるようになっている。決してその危険性の全てが、現時点で把握できているわけではない。
そして先日、生成AI「Claude」シリーズを展開するAnthropic社が、新たな論文を発表して注目を集めている。それが「潜在学習:言語モデルはデータ内の隠れた信号を通じて行動的特性を伝達する」と題された論文だ。
潜在学習(Subliminal Learning)とは聞きなれない言葉だが、論文内では「生徒モデルが教師モデルの持つ行動傾向を“その傾向に関する意味的・明示的な情報が含まれていないように見えるデータ”で学習することで獲得してしまう現象」と定義されている。つまり、不思議な話だが「モデルは、その特性とは全く関係ないように見えるデータを通じて、別のモデルに行動特性を伝達できる」というのである。
ここで言う「教師モデル(Teacher Model)」とは、既に学習が完了していて、特定の性質や知識、行動傾向などを持っているAIモデルを指す。「生徒モデル(Student Model)」とは、まだ十分に学習が行われていない、あるいはこれから新しくトレーニングが行われるAIモデルを言う。生徒モデルは、教師モデルが生成したデータやアウトプットを使って訓練されることで、教師モデルの特徴や傾向を受け継げる。
こうした「教師モデルの出力を生徒モデルに模倣させることで、新たなモデルを効率的に開発する」という手法は、「知識蒸留(Knowledge Distillation)」や「モデル蒸留(Model Distillation)」などと呼ばれ、現在は多くのAI分野で標準的な開発手法となっている。そうした広く普及している開発手法について、潜在学習という新たなリスクが確認された、というのが今回のAnthropic論文の趣旨だ。
潜在学習が“新たなリスク”といわれるワケ
ここまで聞いて、少し疑問を感じた方も多いのではないだろうか。“生徒が教師のまねをする”というのは当たり前の話だし、まさにそうした傾向を利用するのが知識蒸留の目指すところだろう。特に心配することはなさそうだが、Anthropicの論文に対しては「AIの安全性を根本から覆す可能性のある発見」だと評価する声もあげられている。
なぜそこまで大きなリスクと捉えられているのか。重要なのは、そうした模倣が、外から見て把握できる形で行われるかどうかという点だ。論文ではこの点について、次のような実験を通じて解説している。
Copyright © ITmedia, Inc. All Rights Reserved.

