小林啓倫のエマージング・テクノロジー論考
生成AIも安全運転! 注目を集める「LLM用のガードレール」とは何か AIの事故を防ぐために企業がすべきこと(2/3 ページ)
自らの取り組みでLLMの安全性を向上させ、その上に構築される自社の生成AIアプリケーションを安心して提供できるようになるという点で、ガードレールへの期待が高まっているのだ。
ではガードレールとは、具体的にどのような存在なのか。ちょうど米カーネギーメロン大学の研究者らが、LLMのガードレールについてまとめた論文を発表しているので、ここからは彼らの理論に基づいて考えてみることにしたい。
まず彼らの定義だが、この論文内においてガードレールとは「LLMの入力と出力を監視するアルゴリズム」であり、例えば「LLMが有害な要求を処理するのを停止したり、結果をより危険性の低いものに変更したり、倫理に関するデプロイヤーの特定の要件に適合させたりすることができる」と説明している。
この定義に従えば、ガードレールとはLLMの外側に置かれるアルゴリズムであり、例えば入出力フィルターのようなものが頭に浮かぶ。ただ、後述するように、この論文ではファインチューニング(独自の学習データを用意してモデル自体を微調整する行為)もガードレールの一種として扱われている。
この定義の曖昧(あいまい)さは、LLMというテクノロジー自体の若さにも起因しているのだろう。いずれしても、LLMのガードレールとは、LLMの事故を防ぐためにユーザー企業側でできる取り組みといった程度に考えておいた方が良さそうだ。
LLMのガードレールを3層で考える
カーネギーメロン大学の研究者はさらに、ガードレールをより詳しく理解するための概念として「レイヤードプロテクションモデル」を打ち出している。これはガードレールの種類を3つに分けると共に、それぞれがレイヤー(層)として重なり合うことで、より事故を防げるようになるという考え方である。具体的なレイヤーは次の通りだ。
ゲートキーパー層
LLMに対する入力や、そこから生成できる出力を監視し、適切な内容に保つための仕組み。このレイヤーでは「システムプロンプト」という指示を使うことで、LLMがどのように振る舞うべきかが決められる。ゲートキーパーはLLMが危険な質問や不適切なリクエストに答えないように監視し、もし不適切な質問がなされた場合、質問の内容を変更して安全な質問にすることもできる。
ナレッジアンカー層
LLMのアウトプットが、現実に基づいた正しい情報であることを確認するための仕組み。いわゆるハルシネーションを防ぐために、このレイヤーでは、LLMが信頼できる情報源に基づいて答えを出すようにしている。例えば生徒が先生からの質問に答える際、自分の記憶だけに頼るのではなく、教科書を確認してから答えを出すようなものだ。LLMが間違った情報を言おうとしていないかをチェックする。
パラメトリック層
LLMの内部設定や学習の仕方を調整することで、バイアスを減らしたり、プライバシーを守ったりするための仕組み。このレイヤーでは、LLMがより公平で安全な方法で動作するように微調整が行われる。例えばファインチューニングを行うことで、LLMの能力や特性を調整し、特定の目的に合った結果を生成させるようにする機能も、このレイヤーに分類されている。
論文では具体的なガードレールの例がいくつか挙げられているのだが、そのうちの一つ、バイアスリスクに対するものを紹介しておこう。
これらはあくまで一例で、これがガードレールの全てというわけではない。重要なのは、それぞれをレイヤーとして異なる種類のガードレールを組み合わせることで、より安全なアプリケーションの構築を目指すという点にある。
Copyright © ITmedia, Inc. All Rights Reserved.
小林啓倫のエマージング・テクノロジー論考
生成AIやメタバース、新たなサイバー攻撃など、テクノロジーの進化が止まらない。少しずつ生活の中に浸透し、その恩恵を預かれることもある一方、思いもよらない問題を生み出すこともある。このコーナーでは、さまざまな分野の新興技術「エマージング・テクノロジー」について、小林啓倫氏が解説する。
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
2
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
3
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
4
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
5
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
6
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
7
ひろゆき氏「SIer衰退予測」、AI代替の「逆転現象」の理由 2026年に生き残るエンジニア“4つの役割”
-
8
日本の「完璧主義」から脱却し中国ヒューマノイドにどう立ち向かうか
-
9
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
-
10
AWSの「静かな」戦略シフト OpenAIとAnthropic“1日違い登壇”の意味を読み解く
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR