米Googleは9月13日(現地時間)、LLMが不正確な回答を出してしまういわゆる幻覚(ハルシネーション)を軽減するためのAIモデル「DataGemma」を発表した。オープンモデルとしてHugging Faceで公開した。
Gemmaは、Googleが今年2月にオープンモデルとして発表した「Gemini」の軽量版LLM。DataGemmaは、このGemmaのオープンモデルファミリーをベースに、Googleが構築した「Data Commons」の信頼できるデータを使って回答する。
Data Commonsは、数十万の統計変数にわたる2400億を超えるデータポイントを含む、公開されているナレッジグラフだ。データは、国連(UN)、世界保健機関(WHO)、疾病予防管理センター(CDC)、国勢調査局などの“信頼できる”組織から取得されたもの。
DataGemmaは、Data Commonsの信頼できるデータを使ってGemmaモデルの機能を拡張し、「RIG 」(Retrieval-Interleaved Generation)と「RAG」(Retrieval-Augmented Generation)という2つのアプローチを使ってLLMの推論を強化する。
このアプローチは新しいものではない。RIGは、モデルの元の生成とData Commonsに保存されている関連統計を比較することで、事実の正確性を高めるアプローチ。RAGは、生成に外部情報の検索を組み合わせることで正確性を高めるアプローチだ。
Googleは、「RIGとRAGによる予備調査はまだ初期段階だが、有望な結果だ」としている。最終的にはGemmaとGeminiの両方のモデルにDataGemmaを統合していく計画だ。
LLMの信頼性を高めることは「AIが人々に正確な情報を提供し」「世界に対するより深い理解を促す未来を築くための鍵となる」。
詳細は論文を参照されたい。Data CommonsとGemmaの連携の詳細は公式ブログで確認できる。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR