生成AIも安全運転！　注目を集める「LLM用のガードレール」とは何か　AIの事故を防ぐために企業がすべきこと（2/3 ページ）

公開 2024年09月06日 12時00分

著者

小林啓倫

[ITmedia]

印刷する連載新着通知を受け取る

　自らの取り組みでLLMの安全性を向上させ、その上に構築される自社の生成AIアプリケーションを安心して提供できるようになるという点で、ガードレールへの期待が高まっているのだ。

　ではガードレールとは、具体的にどのような存在なのか。ちょうど米カーネギーメロン大学の研究者らが、LLMのガードレールについてまとめた論文を発表しているので、ここからは彼らの理論に基づいて考えてみることにしたい。

米カーネギーメロン大学の研究者らの論文

　まず彼らの定義だが、この論文内においてガードレールとは「LLMの入力と出力を監視するアルゴリズム」であり、例えば「LLMが有害な要求を処理するのを停止したり、結果をより危険性の低いものに変更したり、倫理に関するデプロイヤーの特定の要件に適合させたりすることができる」と説明している。

　この定義に従えば、ガードレールとはLLMの外側に置かれるアルゴリズムであり、例えば入出力フィルターのようなものが頭に浮かぶ。ただ、後述するように、この論文ではファインチューニング（独自の学習データを用意してモデル自体を微調整する行為）もガードレールの一種として扱われている。

　この定義の曖昧（あいまい）さは、LLMというテクノロジー自体の若さにも起因しているのだろう。いずれしても、LLMのガードレールとは、LLMの事故を防ぐためにユーザー企業側でできる取り組みといった程度に考えておいた方が良さそうだ。

LLMのガードレールを3層で考える

　カーネギーメロン大学の研究者はさらに、ガードレールをより詳しく理解するための概念として「レイヤードプロテクションモデル」を打ち出している。これはガードレールの種類を3つに分けると共に、それぞれがレイヤー（層）として重なり合うことで、より事故を防げるようになるという考え方である。具体的なレイヤーは次の通りだ。

ゲートキーパー層

　LLMに対する入力や、そこから生成できる出力を監視し、適切な内容に保つための仕組み。このレイヤーでは「システムプロンプト」という指示を使うことで、LLMがどのように振る舞うべきかが決められる。ゲートキーパーはLLMが危険な質問や不適切なリクエストに答えないように監視し、もし不適切な質問がなされた場合、質問の内容を変更して安全な質問にすることもできる。

ナレッジアンカー層

　LLMのアウトプットが、現実に基づいた正しい情報であることを確認するための仕組み。いわゆるハルシネーションを防ぐために、このレイヤーでは、LLMが信頼できる情報源に基づいて答えを出すようにしている。例えば生徒が先生からの質問に答える際、自分の記憶だけに頼るのではなく、教科書を確認してから答えを出すようなものだ。LLMが間違った情報を言おうとしていないかをチェックする。

パラメトリック層

　LLMの内部設定や学習の仕方を調整することで、バイアスを減らしたり、プライバシーを守ったりするための仕組み。このレイヤーでは、LLMがより公平で安全な方法で動作するように微調整が行われる。例えばファインチューニングを行うことで、LLMの能力や特性を調整し、特定の目的に合った結果を生成させるようにする機能も、このレイヤーに分類されている。

　論文では具体的なガードレールの例がいくつか挙げられているのだが、そのうちの一つ、バイアスリスクに対するものを紹介しておこう。