マイページ

注目記事を集めた総合ページ

ITの今と未来を見通す

スマホと通信の最新トレンド

進化するPCとデバイスの未来

好きが集まる　比べて選べる

ビジネスと働き方のヒント

AI活用のいまが分かる

企業ITのトレンドを詳説

経営リーダーのコミュニティ

マーケ×ITの今がよく分かる

ITエンジニア向け専門サイト

企業向けIT製品の総合サイト

IT製品の技術・比較・事例

製造業のIT導入・活用を支援

モノづくり技術者専門サイト

エレクトロニクス専門サイト

電子設計の基本と応用

エネルギーの専門メディア

建設×テクノロジーの最前線

ちょっと気になるネットの話題

NRI流“業務に最適なAIモデル”の選び方　「ベンチマークだけで優劣は決まらない」

公開 2026年06月18日 12時00分

著者

[ITmedia]

印刷する

　「ベンチマークだけでAIモデルの優劣が決まるわけではない」――野村総合研究所（以下NRI）で、企業向けのAI導入を支援する北村雄騎氏（AIソリューション推進部長）は、業務で活用するAIモデルの選定方法についてこのように指摘する。

　ベンチマークはAIモデルの性能を測る指標の一つで、コーディング性能やタスクを自律的にこなす性能を調べるものなど、さまざまな種類がある。多くのAI開発企業は最新のAIモデルを公開する際、過去のバージョンや他社のモデルとベンチマークのスコアを比較し、性能の高さをアピールする。

　一方、北村氏によると、一般的なベンチマークを見るだけでは、業務で使うのに最適なAIモデルを調べることは難しいという。では、どのようにAIモデルを選べば良いのか。米Anthropicが6月10日に東京都で開催したイベント「Code with Claude」の講演で、北村氏が語った。

北村雄騎氏

AIの実務能力を測る4つの観点

　北村氏は、実際の業務をAIにやらせた結果を分析することを勧める。NRIでは実務の観点からAIモデルの性能を測る社内ベンチマークを構築しており、他社向けのソリューションにも役立てている。

　社内ベンチマークの観点は主に4つある。「日本語業務文書の解釈」と「OCR×文書理解の連結」では、日本企業が業務で扱うデータへの対応性能を中心に測る。「『分からない』といえる能力」では、AIが誤情報を出力するハルシネーションにとどまらず、必要な知識が足りない場合や、論理的な不整合が生じた場合に正しく報告できる性能を見る。

社内ベンチマークの4つの観点（出典：公式YouTubeのライブ配信、以下同）

　なかでも重要な観点が「複雑指示の整合性」だ。一度に大量に与えた指示を守り切る力を試すことで、人間がタスクに介入する回数を減らせるほか、厳しいコンプライアンスが求められる業務での活用などにもつながる。

評価に適した「単位」と頻度

　これらの観点からAIモデルを評価するには、「単位」も適切に設定する必要がある。最近では、複数のAIエージェントが連携して稼働する「マルチエージェント」により、複雑なタスクに対応できることを示すデモも増えている。一方、北村氏は「派手に動くデモ」と「業務が回るシステム」は別と指摘する。

　そこで北村氏は、組織横断的にAIエージェントを連携させる前に、小規模の業務に切り分けることを推奨する。その区分ごとに人間が実行した場合と比較するなど、AIに期待する水準を定める。繰り返し評価できる環境を整備することで、AIモデルやAIエージェントのアップデートの恩恵を受けやすくなる。

評価設計の原則

　AIモデルを評価する頻度も大切だ。NRIでは、同社が使うクラウド型のAIサービスなどで新たなモデルが登場すると、社内ベンチマークによってほぼ即日で自動的に性能を評価できるという。AIモデルの進化に遅れないため、年次ではなく月次でモデルの切り替えを判断できる仕組みを整えるよう訴えた。

　またAIエージェントの発展により、業務に関する知識を与えるだけで対応できるタスクも増えている。AIモデルが変わると、モデルの調整技術などは機能しなくなる恐れがあるが、業務に関する知識は再利用できる。AIモデルの性能を評価し続けるためにも、業務知識を言語化して保有するアプローチが有効とした。

　なお「今日はAIモデルにしか触れていないが、事後的に監査可能な形でガバナンスできているか、コスト効果も含めてどこでどう動かせば良いのかといった話も多く出てくるだろう」と北村氏。日本のコミュニティー全体で知見を共有していきたい考えを示した。

Copyright © ITmedia, Inc. All Rights Reserved.

印刷する

SpecialPR

この記事の著者

島田拓

関連記事

SpecialPR

メールマガジンを配信中

メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

メールマガジン最新号

「Kimi K3」のモデルウェイトと技術レポート公開　日本でも「NVIDIA B300×8」環境での利用報告 Anthropic、著作権訴訟で史上最大「2400億円」和解金支払いへ　学習利用は「フェアユース」認定／今週抑えるべき「Noetra本格始動」と「Kimi K3到来」

SpecialPR

よく見られているカテゴリー

アクセスランキング

もっと見る

SpecialPR

ITmedia AI＋ SNS

@itm_aiplusをフォロー

インフォメーション

注目情報をチェック

お問い合わせ

広告に関するお問い合わせ

ITmedia AI＋をフォロー

あなたにおすすめの記事PR