AIスタートアップのAI inside(東京都渋谷区)は10月28日、AIを評価するAI「Critic Intelligence」(以下CI)を開発したと発表した。同社は日本語ドキュメント処理に特化した大規模言語モデル(LLM)「PolySphere-2」を提供しているが、CIを使うことで、ハルシネーションの出現率を大幅に低下させることに成功。GPT-4oやClaude 3.5 SonnetなどのAIモデルと比べても抑えられているという
PolySphere-2の特徴は、ハルシネーションの出現率の低さだ。日本語ドキュメントの処理タスクにおいて同社が評価したところ、出現率0.25%を記録。これはGPT-4oの33.69%や、Claude 3.5 Sonnetの19.17%よりも大幅に抑えられていると、同社は説明している
ハルシネーションの出現率を大幅に抑えた仕組みが、同社が開発したCIになる。これは「(ドキュメント処理時などの)文字の掠れによる誤読や、ハルシネーションなどによる誤りの確率を明らかにすることで、AIが生成した出力結果の正確性を評価するAI」という。
同社の渡久地択CEOはCIの仕組みついて「他のAIのアウトプットデータとインプットデータを比べて整合性があるかを測る。これはRAGなどの特定のデータベースを参照し確認するということではなく、人間が気にしない、もしくは分からないような情報を参照し、AIの間違いを探す仕組みだ」と話す。
AIが正誤判断に使う情報の例として挙げたのは「ファクスで届いた書類は、スキャンされたデータよりも読みにくい」「横長の紙に書かれた文字列は長く、間違えが生じやすい」など。人間には何の変哲もないような情報だが、AI独自の審査基準で正誤判断を行うという。またOCR以外にも、音声やテキスト、画像などにも応用が効く技術であるとし、同社はCIの特許を出願中であるとしている。
企業における生成AI導入の大きな課題であるハルシネーションに、独自技術で対策をとるAI inside。そんな同社は8月から、PolySphere-2に企業が持つデータを学習・ファインチューニングすることで、その企業オリジナルのSLMを構築できるサービスを提供している。
SLMとは「Small Language Mode」の略称で、日本語では小規模言語モデルといわれる。小さいパラメータ数を持つAIモデルで、消費する計算リソースが少ないため、スマートフォンなどの端末上でも動かせる。また、特定のタスクに特化したファインチューニングを実施しやすいのも特徴だ。
企業向けAIモデルのカスタマイズサービスにおいて、LLMではなくSLMを提供するにも理由があると渡久地CEOは話す。
「われわれはLLMを蒸留(AIモデルを圧縮して効率を上げる技術)することで、SLMを作っていく。なぜならそもそもLLMでビジネスを戦っていく必要がないと考えている。例えば、売り上げを説明できるAIを開発したいとき、別にそのAIはハンバーグのレシピを答えれられる必要はない。当社は、SLMでマルチにAIエージェントを展開してくのが正しいと考えている」(渡久地CEO)
この考えのもと、日本語ドキュメント処理に特化したLLM・PolySphere-2を開発。この精度を極限まで高めるため、CIの開発にも至ったという。また、同社のAI-OCRサービス「DX Suite」には2025年初頭ごろにAIエージェントも標準搭載する予定だ。AIエージェントとは、自律的に考えて必要なタスクを実行するプログラムのことで、DX SuiteではまずAI-OCR処理後の人によるデータチェック工程をAIで自動化する。
渡久地CEOは「われわれは、AIがツールではなく共に働くバディとして利用される働き方『Work with Buddy』を実現していきたい」と今後の意気込みを語った。
Copyright © ITmedia, Inc. All Rights Reserved.