小林啓倫のエマージング・テクノロジー論考
生成AIも安全運転! 注目を集める「LLM用のガードレール」とは何か AIの事故を防ぐために企業がすべきこと(2/3 ページ)
自らの取り組みでLLMの安全性を向上させ、その上に構築される自社の生成AIアプリケーションを安心して提供できるようになるという点で、ガードレールへの期待が高まっているのだ。
ではガードレールとは、具体的にどのような存在なのか。ちょうど米カーネギーメロン大学の研究者らが、LLMのガードレールについてまとめた論文を発表しているので、ここからは彼らの理論に基づいて考えてみることにしたい。
まず彼らの定義だが、この論文内においてガードレールとは「LLMの入力と出力を監視するアルゴリズム」であり、例えば「LLMが有害な要求を処理するのを停止したり、結果をより危険性の低いものに変更したり、倫理に関するデプロイヤーの特定の要件に適合させたりすることができる」と説明している。
この定義に従えば、ガードレールとはLLMの外側に置かれるアルゴリズムであり、例えば入出力フィルターのようなものが頭に浮かぶ。ただ、後述するように、この論文ではファインチューニング(独自の学習データを用意してモデル自体を微調整する行為)もガードレールの一種として扱われている。
この定義の曖昧(あいまい)さは、LLMというテクノロジー自体の若さにも起因しているのだろう。いずれしても、LLMのガードレールとは、LLMの事故を防ぐためにユーザー企業側でできる取り組みといった程度に考えておいた方が良さそうだ。
LLMのガードレールを3層で考える
カーネギーメロン大学の研究者はさらに、ガードレールをより詳しく理解するための概念として「レイヤードプロテクションモデル」を打ち出している。これはガードレールの種類を3つに分けると共に、それぞれがレイヤー(層)として重なり合うことで、より事故を防げるようになるという考え方である。具体的なレイヤーは次の通りだ。
ゲートキーパー層
LLMに対する入力や、そこから生成できる出力を監視し、適切な内容に保つための仕組み。このレイヤーでは「システムプロンプト」という指示を使うことで、LLMがどのように振る舞うべきかが決められる。ゲートキーパーはLLMが危険な質問や不適切なリクエストに答えないように監視し、もし不適切な質問がなされた場合、質問の内容を変更して安全な質問にすることもできる。
ナレッジアンカー層
LLMのアウトプットが、現実に基づいた正しい情報であることを確認するための仕組み。いわゆるハルシネーションを防ぐために、このレイヤーでは、LLMが信頼できる情報源に基づいて答えを出すようにしている。例えば生徒が先生からの質問に答える際、自分の記憶だけに頼るのではなく、教科書を確認してから答えを出すようなものだ。LLMが間違った情報を言おうとしていないかをチェックする。
パラメトリック層
LLMの内部設定や学習の仕方を調整することで、バイアスを減らしたり、プライバシーを守ったりするための仕組み。このレイヤーでは、LLMがより公平で安全な方法で動作するように微調整が行われる。例えばファインチューニングを行うことで、LLMの能力や特性を調整し、特定の目的に合った結果を生成させるようにする機能も、このレイヤーに分類されている。
論文では具体的なガードレールの例がいくつか挙げられているのだが、そのうちの一つ、バイアスリスクに対するものを紹介しておこう。
これらはあくまで一例で、これがガードレールの全てというわけではない。重要なのは、それぞれをレイヤーとして異なる種類のガードレールを組み合わせることで、より安全なアプリケーションの構築を目指すという点にある。
Copyright © ITmedia, Inc. All Rights Reserved.
小林啓倫のエマージング・テクノロジー論考
生成AIやメタバース、新たなサイバー攻撃など、テクノロジーの進化が止まらない。少しずつ生活の中に浸透し、その恩恵を預かれることもある一方、思いもよらない問題を生み出すこともある。このコーナーでは、さまざまな分野の新興技術「エマージング・テクノロジー」について、小林啓倫氏が解説する。
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
Google、“動画版Nano Banana”こと「Gemini Omni」公開 会話で映像を生成・編集
-
2
日立、Anthropicと提携 グループ29万人に「Claude」などAI導入 社会インフラ分野にも展開へ
-
3
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力
-
4
GoogleのAIサブスク、最上位プランを値下げ 月額1万4500円の新プランも
-
5
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
6
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
7
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
8
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
9
Google「Gemini」に個人向けAIエージェント 質問に答えるだけでなく「作業を代替」 まずは米国で
-
10
OpenAIの共同設立者アンドレイ・カーパシー、Anthropicにジョイン
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR