“AIを評価するAI”でハルシネーションを大幅低下 AI insideが独自技術 “SLM”との組み合わせで挑むビジネス戦略とは
AIスタートアップのAI inside(東京都渋谷区)は10月28日、AIを評価するAI「Critic Intelligence」(以下CI)を開発したと発表した。同社は日本語ドキュメント処理に特化した大規模言語モデル(LLM)「PolySphere-2」を提供しているが、CIを使うことで、ハルシネーションの出現率を大幅に低下させることに成功。GPT-4oやClaude 3.5 SonnetなどのAIモデルと比べても抑えられているという
PolySphere-2の特徴は、ハルシネーションの出現率の低さだ。日本語ドキュメントの処理タスクにおいて同社が評価したところ、出現率0.25%を記録。これはGPT-4oの33.69%や、Claude 3.5 Sonnetの19.17%よりも大幅に抑えられていると、同社は説明している
ハルシネーションの出現率を大幅に抑えた仕組みが、同社が開発したCIになる。これは「(ドキュメント処理時などの)文字の掠れによる誤読や、ハルシネーションなどによる誤りの確率を明らかにすることで、AIが生成した出力結果の正確性を評価するAI」という。
同社の渡久地択CEOはCIの仕組みついて「他のAIのアウトプットデータとインプットデータを比べて整合性があるかを測る。これはRAGなどの特定のデータベースを参照し確認するということではなく、人間が気にしない、もしくは分からないような情報を参照し、AIの間違いを探す仕組みだ」と話す。
AIが正誤判断に使う情報の例として挙げたのは「ファクスで届いた書類は、スキャンされたデータよりも読みにくい」「横長の紙に書かれた文字列は長く、間違えが生じやすい」など。人間には何の変哲もないような情報だが、AI独自の審査基準で正誤判断を行うという。またOCR以外にも、音声やテキスト、画像などにも応用が効く技術であるとし、同社はCIの特許を出願中であるとしている。
「LLMでビジネスを戦っていく必要はない」
企業における生成AI導入の大きな課題であるハルシネーションに、独自技術で対策をとるAI inside。そんな同社は8月から、PolySphere-2に企業が持つデータを学習・ファインチューニングすることで、その企業オリジナルのSLMを構築できるサービスを提供している。
SLMとは「Small Language Mode」の略称で、日本語では小規模言語モデルといわれる。小さいパラメータ数を持つAIモデルで、消費する計算リソースが少ないため、スマートフォンなどの端末上でも動かせる。また、特定のタスクに特化したファインチューニングを実施しやすいのも特徴だ。
企業向けAIモデルのカスタマイズサービスにおいて、LLMではなくSLMを提供するにも理由があると渡久地CEOは話す。
「われわれはLLMを蒸留(AIモデルを圧縮して効率を上げる技術)することで、SLMを作っていく。なぜならそもそもLLMでビジネスを戦っていく必要がないと考えている。例えば、売り上げを説明できるAIを開発したいとき、別にそのAIはハンバーグのレシピを答えれられる必要はない。当社は、SLMでマルチにAIエージェントを展開してくのが正しいと考えている」(渡久地CEO)
この考えのもと、日本語ドキュメント処理に特化したLLM・PolySphere-2を開発。この精度を極限まで高めるため、CIの開発にも至ったという。また、同社のAI-OCRサービス「DX Suite」には2025年初頭ごろにAIエージェントも標準搭載する予定だ。AIエージェントとは、自律的に考えて必要なタスクを実行するプログラムのことで、DX SuiteではまずAI-OCR処理後の人によるデータチェック工程をAIで自動化する。
渡久地CEOは「われわれは、AIがツールではなく共に働くバディとして利用される働き方『Work with Buddy』を実現していきたい」と今後の意気込みを語った。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
2
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
3
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
4
「Claude Fable 5」の性能が落ちた? 提供停止前後で比べた結果 米AI企業2社がそれぞれ報告
-
5
人型ロボットが工場で稼働する様子を6日間生配信、作業成功率99.99%をうたう 中国メーカー
-
6
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
7
AIに詳しくなくても大丈夫、月額制で中小企業のAI活用をプロが支える新サービス
-
8
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
9
Meta、「Claude Codeと組織改編で爆速開発」のはずが「想定より加速せず」 ザッカーバーグ氏、社内集会で発言
-
10
NTT、独自のAIモデル「tsuzumi 2」発表 “国産AI開発競争”に「負けられない」と島田社長
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR