IBMの調査によれば、約42%の企業が「自社に十分な独自データがない」と感じている。DSM導入を検討する以前に、データの棚卸しと整備というプロジェクトが必要になる。これは技術的な問題というより組織横断のマネジメント課題であり、一朝一夕には解決しない。
またデータが存在しているからといって、自由にモデル学習に使えるわけではない。医療、金融、法律などの高度な専門分野では、高品質なデータは専有物であり、外部からアクセスできないことが多い。また「GDPR(EU一般データ保護規則)」や「HIPAA(米国における医療保険の相互運用性と責任に関する法律)」などの厳格な規制下にあるため、モデル学習に使用する際はコンプライアンス違反を問われないようにする必要がある。
さらにいま「幻覚(ハルシネーション)」ならぬ「作話(コンファビュレーション)」という問題も発生している。誤情報を出力する点で両者は似ているが、作話は論理的に筋が通った気付きにくいうそを生成する現象を指す。
例えば、金融分野に特化したDSMが「金融庁の○○ガイドライン第△条に基づき、この取引スキームは適法だ」といった形で、実在しない条項や誤った解釈を正確な規制用語と論理構成で提示するといった具合だ。金融機関のコンプライアンス担当者が原典に当たるのでもなければ、この作話に気付くことは困難だろう。
なぜDSMでうそが高度化するのか。その理由はDSMの本質にある。汎用モデルであれば、専門用語の使い方が不自然であったり、書式が崩れていたりと、「怪しい」と気付く余地がある。しかしDSMは、当然ながら特化している分野特有の専門用語や文脈のニュアンス、文書の構造を深く学習している。
その結果、DSMは「専門家のような流ちょうさ」で話し、文法や用語のミスといった形式的な誤りがなくなる。内容が事実無根であっても、専門家ですら「正しい」と錯覚しやすくなる。
汎用モデルの幻覚が「知ったかぶり」程度で済むのに対し、DSMは「専門家になりすました詐欺師」のように振る舞う。医療・金融・法務など高リスク領域では、1つの作話が致命的な被害につながりかねず、RAGの併用や思考プロセスの監視技術が不可欠だ。
Copyright © ITmedia, Inc. All Rights Reserved.