まず研究者らは、特定の傾向(「フクロウが好き」「問題のある行動を取る」など)を持つ教師モデルを開発。次にその教師モデルに「数字列、コード、数学問題の推論過程」といった領域でデータ(後で生徒モデルを開発する際の訓練データとするためのもの)を生成させた。
その際に生成したデータから、教師モデルに持たせた特性への明示的な言及をフィルタリングで除去するという処理を行っている(例えば「フクロウを好む教師が作った数字データ」から、「フクロウ」という単語や関連する内容を削除するなど)。
この加工済みデータを使い、新たな生徒モデルを開発。最後に、生徒モデルが教師モデルの特性を獲得したかを評価した。教師モデルの持つ特性に関係する部分を訓練データから取り除いたのだから、生徒モデルはその特性を学んではいないはずだ。
ところが驚くべきことに、このような処理をしても、生徒モデルが教師モデルの特性を学習することが確認されたのだ。フクロウ好きという性格や悪意のある行動傾向など、データに明示的な参照や関連性が含まれていないにもかかわらず、生徒モデルはこれらの特性を獲得していた。
この現象はさまざまな特性でも見られ、数字列、コード、推論過程など異なるデータ形式でも発生することを確認した。ただし、教師と生徒のベースモデル(それぞれのモデルを開発する際の基礎となったモデル)が異なる場合は伝達が発生せず、モデル固有のパターンが関与していることも判明した。またこの隠れた特性は、従来の検査手法では検知できないことも確認され、従来の安全対策に限界があることが明らかになっている。
教師モデルから知らず知らずのうちに、隠れた特性が生徒モデルにコピーされている──しかも検知が困難となれば、リスクの全体像すら把握できない。まさに「AIの安全性を根本から覆す」可能性があると言わざるを得ないだろう。
Copyright © ITmedia, Inc. All Rights Reserved.