NRI流“業務に最適なAIモデル”の選び方 「ベンチマークだけで優劣は決まらない」

 「ベンチマークだけでAIモデルの優劣が決まるわけではない」――野村総合研究所(以下NRI)で、企業向けのAI導入を支援する北村雄騎氏(AIソリューション推進部長)は、業務で活用するAIモデルの選定方法についてこのように指摘する。

 ベンチマークはAIモデルの性能を測る指標の一つで、コーディング性能やタスクを自律的にこなす性能を調べるものなど、さまざまな種類がある。多くのAI開発企業は最新のAIモデルを公開する際、過去のバージョンや他社のモデルとベンチマークのスコアを比較し、性能の高さをアピールする。

 一方、北村氏によると、一般的なベンチマークを見るだけでは、業務で使うのに最適なAIモデルを調べることは難しいという。では、どのようにAIモデルを選べば良いのか。米Anthropicが6月10日に東京都で開催したイベント「Code with Claude」の講演で、北村氏が語った。

北村雄騎氏

AIの実務能力を測る4つの観点

 北村氏は、実際の業務をAIにやらせた結果を分析することを勧める。NRIでは実務の観点からAIモデルの性能を測る社内ベンチマークを構築しており、他社向けのソリューションにも役立てている。

 社内ベンチマークの観点は主に4つある。「日本語業務文書の解釈」と「OCR×文書理解の連結」では、日本企業が業務で扱うデータへの対応性能を中心に測る。「『分からない』といえる能力」では、AIが誤情報を出力するハルシネーションにとどまらず、必要な知識が足りない場合や、論理的な不整合が生じた場合に正しく報告できる性能を見る。

社内ベンチマークの4つの観点(出典:公式YouTubeのライブ配信、以下同)

 なかでも重要な観点が「複雑指示の整合性」だ。一度に大量に与えた指示を守り切る力を試すことで、人間がタスクに介入する回数を減らせるほか、厳しいコンプライアンスが求められる業務での活用などにもつながる。

評価に適した「単位」と頻度

 これらの観点からAIモデルを評価するには、「単位」も適切に設定する必要がある。最近では、複数のAIエージェントが連携して稼働する「マルチエージェント」により、複雑なタスクに対応できることを示すデモも増えている。一方、北村氏は「派手に動くデモ」と「業務が回るシステム」は別と指摘する。

 そこで北村氏は、組織横断的にAIエージェントを連携させる前に、小規模の業務に切り分けることを推奨する。その区分ごとに人間が実行した場合と比較するなど、AIに期待する水準を定める。繰り返し評価できる環境を整備することで、AIモデルやAIエージェントのアップデートの恩恵を受けやすくなる。

評価設計の原則

 AIモデルを評価する頻度も大切だ。NRIでは、同社が使うクラウド型のAIサービスなどで新たなモデルが登場すると、社内ベンチマークによってほぼ即日で自動的に性能を評価できるという。AIモデルの進化に遅れないため、年次ではなく月次でモデルの切り替えを判断できる仕組みを整えるよう訴えた。

 またAIエージェントの発展により、業務に関する知識を与えるだけで対応できるタスクも増えている。AIモデルが変わると、モデルの調整技術などは機能しなくなる恐れがあるが、業務に関する知識は再利用できる。AIモデルの性能を評価し続けるためにも、業務知識を言語化して保有するアプローチが有効とした。

 なお「今日はAIモデルにしか触れていないが、事後的に監査可能な形でガバナンスできているか、コスト効果も含めてどこでどう動かせば良いのかといった話も多く出てくるだろう」と北村氏。日本のコミュニティー全体で知見を共有していきたい考えを示した。

印刷する
SNSでシェア

この記事の著者

島田拓

島田拓

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR