多くの大企業がこの夏までに生成AIのPoC(概念検証)を終え、生成AIの実運用を見据えたときのさまざまな課題を見つけています。課題の一つは検索拡張生成(RAG)の最適化です。今回はRAGの精度をより高める実装方法についてまとめた論文を解説します。
この記事は会員限定です。会員登録すると全てご覧いただけます。
AIやデータ分析の分野では、毎日のように新しい技術やサービスが登場している。その中にはビジネスに役立つものも、根底をひっくり返すほどのものも存在する。本連載では、ITサービス企業・日本TCSの「AIラボ」で所長を務める三澤瑠花氏が、データ分析や生成AIの分野で注目されている最新論文や企業発表をビジネス視点から紹介する。
生成AIの導入が進む中、多くの企業が直面している課題が「RAG」の最適化です。RAGとは、大規模言語モデル(LLM)に外部データベースからの情報を組み合わせることで、より正確で最新の情報を含む回答を生成する技術です。
LLMが学習している内容は汎用的な情報であるため、例えば自社の社則の内容に即した回答を得られません。「ChatGPT」などにはファイル添付機能をアップロードして明示的に社則を提示し、回答を得る方法もありますが、もしLLMに指示や質問した内容に合わせてデータベースを検索し、回答できるシステムがあるとするとどうでしょうか。
他国と比較し、マニュアルや文章を精緻に記録し残している日本企業にとってRAGの活用は大きな可能性を秘めています。
しかし、便利な一方でRAGの実装には「参照データの誤り」や「適切な参照情報がない場合の対処」といった課題が存在します。これらの問題に対し、中国の研究チームが精度向上を図る研究手法をまとめました。今回はこの論文をベースにどのような改善策があるのかについてご紹介します。
研究チームは、RAGシステムを構成する6つの主要モジュールについて、現状で利用可能な手法を網羅的に評価しました。6つの主要モジュールとは「クエリ分類」「検索」「リランキング」「リパッキング」「要約」「生成モデルのファインチューニング」です。評価に当たっては、各モジュールの性能を測定するための専用のデータセットと評価指標を使用しています。
各モジュールについて、概要と評価手法、具体的な実装パターンを紹介します。
「クエリ分類」は人間が受付で行う振り分け作業に似た操作です。ユーザーからの問い合わせ(クエリ)を分析し、既存の知識で対応可能かどうか、それとも外部情報の検索が必要かを判断します。リソースの効率的な配分と応答時間を最適化できます。
「検索」は企業の膨大なデータベースや文書管理システムから必要な情報を探し出す操作です。単純なキーワードマッチングだけでなく、意味的な関連性も考慮した高度な検索を行います。例えば、「売上高」を検索する際に、「収益」や「営業成績」といった関連用語も含めて検索することで、より包括的な情報収集が可能になります。
「リランキング」は検索結果の優先順位付けに相当します。初期の検索結果をさらに精査し、クエリとの関連性や情報の重要度に基づいて再評価します。ビジネス文脈では、最新のデータや信頼性の高い情報源からの結果を優先的に扱うなど、意思決定に直結する情報を上位に配置します。
「リパッキング」はリオーダリングともいい、会議の議事録や報告書の構成を最適化するプロセスに似ています。検索で得られた情報を最も効果的に利用できるよう再構成します。例えば、財務情報や市場動向、競合分析といった異なる種類の情報を一貫性のある形で統合します。
「要約」は長文の報告書やメールを簡潔にまとめる作業に相当します。RAGシステムは検索された大量の情報から核心を抽出して簡潔にまとめます。これにより、意思決定者は短時間で本質的な情報を把握できます。
最後に「生成モデルのファインチューニング」です。これは過去の記事でも言及していますが、新入社員や部門異動した社員に対する業務別のトレーニングに似ています。LLMを特定の業界や企業の文脈に合わせて調整します。例えば、金融機関であれば金融用語や規制に関する知識を強化し、製造業であれば技術用語や生産プロセスに関する理解を深めます。
これらの要素がお互いに不可欠な要素となって連携することで、RAGシステムは企業特有の知識ベースを活用しつつ、最新かつ関連性の高い情報を組み合わせて的確な回答や洞察を提供します。
検索性能の評価には「TREC DLデータセット」を使用し、関連文書をどれだけ上位に順位付けできたか(mAP)や上位10件の検索結果の質の評価(nDCG@10)、上位50件と1000件の結果に関連文書がいくつ含まれるか(R@50、R@1k)といった指標で性能を測定します。
リランキングモジュールの評価には「MS MARCOデータセット」を使い、正解が最上位または上位10件に出現する確率(MRR@1、MRR@10)、正解が上位10件に含まれる確率(Hit Rate@10)などの指標で性能を評価します。
システム全体の性能評価には、一般的な知識や常識に基づいた推論、与えられた情報の正確性の確認、一般的なQA、複数の情報源を必要とするQA、医療分野の専門的なQAなど、多岐にわたるタスクを用いて総合的な評価を行います。
徹底的な評価の結果、研究チームは2つの実装パターンを推奨しました。
一つは最高性能指向のパターンです。法務や財務など高い正確性が求められる分野での利用に適しています。もう一つは効率性バランス指向のパターンで、処理速度と精度のバランスを重視する場合に有効です。カスタマーサポートなど迅速な対応が求められる場面で力を発揮します。
最高性能指向パターンは検索に「Hybrid with HyDE方式」を採用しています。これは通常の検索に加え、クエリから生成した仮説的な回答を基に関連文書を検索する高度な手法です。リランキングは「monoT5」を使用しています。文書リパッキングは「リバース方式」を採用し最も関連性の高い情報を優先的に処理します。要約には「RECOMP方法」を採用しています。これは抽出的要約と生成的要約を組み合わせた高度な要約技術です。
効率性バランス指向パターンも最高性能指向パターンに似ていますが、検索には「Hybrid方式」を採用しています。キーワードベースの検索と意味ベースの検索を組み合わせた方法で、HyDEほど複雑ではありませんが高速で効果的な検索が可能です。リランキングは軽量で高速な「TILDEv2」を使用し、文書リパッキングは最高性能指向パターンと同様に「リバース方式」を採用しました。要約にも最高性能指向パターンと同じRECOMP方法を採用しますが、パラメータ調整により処理速度を重視します。
これらのパターンを活用することで、企業は自社の業務特性や要件に合わせてRAGシステムを最適化し、より高い精度を出せます。
日本企業の強みである細やかな品質管理とプロセス改善の文化は、RAG技術の最適化に都合のいい性質です。製造業では技術文書作成支援に最高性能指向のパターンを採用し高い精度を確保できます。金融機関では投資レポート生成に効率性バランス指向のパターンを採用し、速報性と精度のバランスを図れます。小売業のカスタマーサポートでは効率性バランス指向のパターンを基本としつつ重要度に応じて最高性能指向に切り替えるなど、柔軟な対応が可能になります。
RAG技術を効果的に活用するためには幾つかの重要なポイントがあります。参照先データベースの正確性と最新性を維持するプロセスの確立が不可欠です。また、業界特有の専門用語や暗黙知を考慮したモデルのファインチューニングも重要です。適切な参照情報がない場合の対処方法の設計と実装、そしてRAGシステムの精度と効率を継続的に評価し改善するサイクルの構築も欠かせません。これらのポイントを押さえることで、より信頼性の高いRAGシステムを構築し、企業の生産性向上に役立てられます。
企業のCIO(最高情報責任者)やIT戦略担当者は、自社の業務プロセスや目標に合わせたRAG実装パターンの選択、参照データの品質管理体制の構築、そして適切な参照先がない場合の対処方法の設計に注力する段階に来ています。これらの要素を適切に組み合わせることで、企業は社内ナレッジの効率的な活用による生産性の大幅な向上、顧客対応の質と速度の向上によるカスタマーエクスペリエンスの改善、データに基づいた意思決定プロセスの強化、新製品・サービス開発におけるイノベーションの加速といった成果を期待できます。
RAG技術の最適化は、単なる技術的な改善にとどまらず、企業全体のデジタルトランスフォーメーションを加速させる重要な戦略となります。各企業が自社の強みを生かしたRAG戦略を構築し、実装することは生成AIを用いたプロジェクトの戦略構築の貴重な基盤となることでしょう。
AIセンターオブエクセレンス本部 AIラボ ヘッド
日本女子大学卒業、東京学芸大学大学院修士課程修了(天文学) フランス国立科学研究センター・トゥールーズ第3大学大学院 博士課程修了(宇宙物理学)。
2016年入社。「AIラボ」のトップとして、顧客向けにAIモデルの開発や保守、コンサルティングなどを担当している。
Copyright © ITmedia, Inc. All Rights Reserved.