小林啓倫のエマージング・テクノロジー論考

生成AIも安全運転! 注目を集める「LLM用のガードレール」とは何か AIの事故を防ぐために企業がすべきこと(2/3 ページ)

 自らの取り組みでLLMの安全性を向上させ、その上に構築される自社の生成AIアプリケーションを安心して提供できるようになるという点で、ガードレールへの期待が高まっているのだ。

 ではガードレールとは、具体的にどのような存在なのか。ちょうど米カーネギーメロン大学の研究者らが、LLMのガードレールについてまとめた論文を発表しているので、ここからは彼らの理論に基づいて考えてみることにしたい。

米カーネギーメロン大学の研究者らの論文

 まず彼らの定義だが、この論文内においてガードレールとは「LLMの入力と出力を監視するアルゴリズム」であり、例えば「LLMが有害な要求を処理するのを停止したり、結果をより危険性の低いものに変更したり、倫理に関するデプロイヤーの特定の要件に適合させたりすることができる」と説明している。

 この定義に従えば、ガードレールとはLLMの外側に置かれるアルゴリズムであり、例えば入出力フィルターのようなものが頭に浮かぶ。ただ、後述するように、この論文ではファインチューニング(独自の学習データを用意してモデル自体を微調整する行為)もガードレールの一種として扱われている。

 この定義の曖昧(あいまい)さは、LLMというテクノロジー自体の若さにも起因しているのだろう。いずれしても、LLMのガードレールとは、LLMの事故を防ぐためにユーザー企業側でできる取り組みといった程度に考えておいた方が良さそうだ。

LLMのガードレールを3層で考える

 カーネギーメロン大学の研究者はさらに、ガードレールをより詳しく理解するための概念として「レイヤードプロテクションモデル」を打ち出している。これはガードレールの種類を3つに分けると共に、それぞれがレイヤー(層)として重なり合うことで、より事故を防げるようになるという考え方である。具体的なレイヤーは次の通りだ。

ゲートキーパー層

 LLMに対する入力や、そこから生成できる出力を監視し、適切な内容に保つための仕組み。このレイヤーでは「システムプロンプト」という指示を使うことで、LLMがどのように振る舞うべきかが決められる。ゲートキーパーはLLMが危険な質問や不適切なリクエストに答えないように監視し、もし不適切な質問がなされた場合、質問の内容を変更して安全な質問にすることもできる。

ナレッジアンカー層

 LLMのアウトプットが、現実に基づいた正しい情報であることを確認するための仕組み。いわゆるハルシネーションを防ぐために、このレイヤーでは、LLMが信頼できる情報源に基づいて答えを出すようにしている。例えば生徒が先生からの質問に答える際、自分の記憶だけに頼るのではなく、教科書を確認してから答えを出すようなものだ。LLMが間違った情報を言おうとしていないかをチェックする。

パラメトリック層

 LLMの内部設定や学習の仕方を調整することで、バイアスを減らしたり、プライバシーを守ったりするための仕組み。このレイヤーでは、LLMがより公平で安全な方法で動作するように微調整が行われる。例えばファインチューニングを行うことで、LLMの能力や特性を調整し、特定の目的に合った結果を生成させるようにする機能も、このレイヤーに分類されている。

 論文では具体的なガードレールの例がいくつか挙げられているのだが、そのうちの一つ、バイアスリスクに対するものを紹介しておこう。

バイアスリスクについて

 これらはあくまで一例で、これがガードレールの全てというわけではない。重要なのは、それぞれをレイヤーとして異なる種類のガードレールを組み合わせることで、より安全なアプリケーションの構築を目指すという点にある。

印刷する
SNSでシェア

小林啓倫のエマージング・テクノロジー論考

生成AIやメタバース、新たなサイバー攻撃など、テクノロジーの進化が止まらない。少しずつ生活の中に浸透し、その恩恵を預かれることもある一方、思いもよらない問題を生み出すこともある。このコーナーでは、さまざまな分野の新興技術「エマージング・テクノロジー」について、小林啓倫氏が解説する。

この連載の記事をもっと見る

この記事の著者

小林啓倫

小林啓倫

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR