もちろんいくつかのレイヤーを組み合わせれば、効果的なガードレールが実装できるというわけではない。論文内では、実装における課題として、4つの点を挙げている。
まずは「柔軟性と安定性のバランス」だ。LLMには、常に新しいデータや状況に対応できる柔軟性が求められる。しかし同時に、予測不可能な動作を避けるために、安定かつ安全に動作することも重要となる。
柔軟性が高すぎると、LLMが意図しない形で動作するリスクがある一方、安定性を重視しすぎると、LLMが新しい状況に対応できなくなり、回答が固定化してしまう可能性がある。そのバランスを取れる位置にガードレールを設置しなければならない。
第2に「複雑さの増大」である。LLMは非常に複雑なテクノロジーで、全ての状況に対応するための補助的なシステムやプロンプトが必要になる。しかしそうした補助システムが増えることで、全体のシステムがさらに複雑になり、管理や評価が難しくなる。これはPCに多くのソフトウェアをインストールしすぎると、どれがどのように動作しているのか分かりにくくなり、最終的にはシステム全体を把握しづらくなるのに似ている。
第3の課題は「目標と指標の不明確さ」だ。実務面で考えると、LLMに何を期待するのか、具体的な目標や指標を設定するのが難しい場合がある。テストの成績を優良可の3段階で評価するのではなく、どの分野が得意でどの部分が苦手かを詳しく知りたいという場合があるだろう。
また単に「正しい回答ができた」というだけでなく、回答の速さや分かりやすさといった点を評価したくなるかもしれない。そうした個々のニーズについて、適切な指標を用意しなければならないわけである。
最後の課題が「システムのテスト性と進化性」だ。LLMが設計通りに動作し続けることを確認するのは難しい。また時間がたつにつれて、LLMがどのようにパフォーマンスが変わるのかを評価するのも容易ではない。特にLLMは、新しいデータを追加したり、新しいモデルを開発することで進化していくが、そのたびに評価をし直す必要がある。持続的に効果を発揮するガードレールを設置するのは、極めて難しいチャレンジなのである。
これらの課題について、残念ながら手本となる回答や指針が示されているわけではない。ただガードレール実装において、こうしたポイントに留意する必要があると知っておくだけでも有益だろう。落とし穴があることを知っていれば、それを埋めたり迂回したりすることは困難でも、何の受け身も取らずに落ちるのだけは避けられる。
冒頭で自動車用のガードレールについて触れたが、米国で高速道路用のガードレールの特許が取得されたのは、1933年のことになるそうだ。また現在のような、断面がW型のガードレールが米国で標準になったのは、1950年代のことだそうである。
量産型自動車の第1号と見なされているT型フォードが発表されたのが1908年であることを考えると、私たちがいま知るようなガードレールが一般に定着するのは、自動車の登場から数十年を待たなければならなかったといえるだろう。
確かにLLMと自動車は全く違う技術で、21世紀の社会も20世紀初頭の社会と大きく異なる。しかし人間や社会が新しい技術のリスクをきちんと認識し、それに対して正しい対策を標準的に行えるようになるスピードは、そう変わっていないはずだ。LLMのガードレールに関してスタンダードが確立されるまで、もうしばらく時間がかかると考えられる。
とはいえ、それまで企業は何もせずに待っているというわけにはいかない。当局による規制整備の動向や、業界内での合意形成、ベストプラクティスの共有といった動きに目を光らせつつ、当面は独自の調査・分析に基づく判断を行うことが求められるだろう。
物議を醸した「顔写真から自閉症を判別するアプリ」 医療分野でのAI活用に求められる倫理観を考える
後継者不足の“COBOL言語”を生成AIに引き継ぎ 政府や銀行の“いにしえのプログラム”を近代化へ
生成AIが“AI生成コンテンツ”を学習し続けるとどうなる?→「モデル崩壊」が起こる 英国チームが発表
リコー、低コスト・高速うたう新LLM 日英中対応で今秋提供
AIと人間はどのように共存すべきか? 脳科学者・茂木健一郎さんの主張 「人間は人間にしか興味がない」Copyright © ITmedia, Inc. All Rights Reserved.