Google、AIの“幻覚”に対処する「DataGemma」をオープンモデルでリリース

» 2024年09月15日 07時35分公開

[ITmedia]

　米Googleは9月13日（現地時間）、LLMが不正確な回答を出してしまういわゆる幻覚（ハルシネーション）を軽減するためのAIモデル「DataGemma」を発表した。オープンモデルとしてHugging Faceで公開した。

　Gemmaは、Googleが今年2月にオープンモデルとして発表した「Gemini」の軽量版LLM。DataGemmaは、このGemmaのオープンモデルファミリーをベースに、Googleが構築した「Data Commons」の信頼できるデータを使って回答する。

　Data Commonsは、数十万の統計変数にわたる2400億を超えるデータポイントを含む、公開されているナレッジグラフだ。データは、国連（UN）、世界保健機関（WHO）、疾病予防管理センター（CDC）、国勢調査局などの“信頼できる”組織から取得されたもの。

Data CommonsのWebサイト

　DataGemmaは、Data Commonsの信頼できるデータを使ってGemmaモデルの機能を拡張し、「RIG 」（Retrieval-Interleaved Generation）と「RAG」（Retrieval-Augmented Generation）という2つのアプローチを使ってLLMの推論を強化する。

　このアプローチは新しいものではない。RIGは、モデルの元の生成とData Commonsに保存されている関連統計を比較することで、事実の正確性を高めるアプローチ。RAGは、生成に外部情報の検索を組み合わせることで正確性を高めるアプローチだ。

一般的な応答、RIG、RAGの応答アプローチ比較（画像：Googleの論文より）

　Googleは、「RIGとRAGによる予備調査はまだ初期段階だが、有望な結果だ」としている。最終的にはGemmaとGeminiの両方のモデルにDataGemmaを統合していく計画だ。

　LLMの信頼性を高めることは「AIが人々に正確な情報を提供し」「世界に対するより深い理解を促す未来を築くための鍵となる」。

　詳細は論文を参照されたい。Data CommonsとGemmaの連携の詳細は公式ブログで確認できる。

Google、「Prompt Gallery」を「AI Studio」でも提供開始　無料で利用可能
Googleは、「AI Studio」に多数のプロンプト例を試せる「Prompt Gallery」を追加した。マルチモーダルなプロンプトも無料で試せる。
Google、オープンな生成AIモデル「Gemma 2」リリース　270億パラメータモデル追加
Googleは2月に発表した生成AIモデル「Gemma」の次世代「Gemma 2」をリリースした。9Bと27Bの2サイズで、9Bの性能はMetaの「Llama 3」の8Bを上回るとしている。
Google、「ピザに接着剤」回答についての対策を説明
Googleは、テスト中の検索機能「AI Overview」（日本では「AIによる概要」）で「ピザに接着剤を投入する」などの誤った回答を表示した件について、原因と対策を公式ブログで説明した。
Google I/O 2024基調講演まとめ　AI一色、GPT-4oのような機能も
Googleの年次開発者会議「Google I/O」の基調講演で発表されたことをまとめた。ハードウェアについてはAIデータセンター向けのTPUのみで、Gemini中心の基調講演だった。