NRI流“業務に最適なAIモデル”の選び方 「ベンチマークだけで優劣は決まらない」
「ベンチマークだけでAIモデルの優劣が決まるわけではない」――野村総合研究所(以下NRI)で、企業向けのAI導入を支援する北村雄騎氏(AIソリューション推進部長)は、業務で活用するAIモデルの選定方法についてこのように指摘する。
ベンチマークはAIモデルの性能を測る指標の一つで、コーディング性能やタスクを自律的にこなす性能を調べるものなど、さまざまな種類がある。多くのAI開発企業は最新のAIモデルを公開する際、過去のバージョンや他社のモデルとベンチマークのスコアを比較し、性能の高さをアピールする。
一方、北村氏によると、一般的なベンチマークを見るだけでは、業務で使うのに最適なAIモデルを調べることは難しいという。では、どのようにAIモデルを選べば良いのか。米Anthropicが6月10日に東京都で開催したイベント「Code with Claude」の講演で、北村氏が語った。
AIの実務能力を測る4つの観点
北村氏は、実際の業務をAIにやらせた結果を分析することを勧める。NRIでは実務の観点からAIモデルの性能を測る社内ベンチマークを構築しており、他社向けのソリューションにも役立てている。
社内ベンチマークの観点は主に4つある。「日本語業務文書の解釈」と「OCR×文書理解の連結」では、日本企業が業務で扱うデータへの対応性能を中心に測る。「『分からない』といえる能力」では、AIが誤情報を出力するハルシネーションにとどまらず、必要な知識が足りない場合や、論理的な不整合が生じた場合に正しく報告できる性能を見る。
なかでも重要な観点が「複雑指示の整合性」だ。一度に大量に与えた指示を守り切る力を試すことで、人間がタスクに介入する回数を減らせるほか、厳しいコンプライアンスが求められる業務での活用などにもつながる。
評価に適した「単位」と頻度
これらの観点からAIモデルを評価するには、「単位」も適切に設定する必要がある。最近では、複数のAIエージェントが連携して稼働する「マルチエージェント」により、複雑なタスクに対応できることを示すデモも増えている。一方、北村氏は「派手に動くデモ」と「業務が回るシステム」は別と指摘する。
そこで北村氏は、組織横断的にAIエージェントを連携させる前に、小規模の業務に切り分けることを推奨する。その区分ごとに人間が実行した場合と比較するなど、AIに期待する水準を定める。繰り返し評価できる環境を整備することで、AIモデルやAIエージェントのアップデートの恩恵を受けやすくなる。
AIモデルを評価する頻度も大切だ。NRIでは、同社が使うクラウド型のAIサービスなどで新たなモデルが登場すると、社内ベンチマークによってほぼ即日で自動的に性能を評価できるという。AIモデルの進化に遅れないため、年次ではなく月次でモデルの切り替えを判断できる仕組みを整えるよう訴えた。
またAIエージェントの発展により、業務に関する知識を与えるだけで対応できるタスクも増えている。AIモデルが変わると、モデルの調整技術などは機能しなくなる恐れがあるが、業務に関する知識は再利用できる。AIモデルの性能を評価し続けるためにも、業務知識を言語化して保有するアプローチが有効とした。
なお「今日はAIモデルにしか触れていないが、事後的に監査可能な形でガバナンスできているか、コスト効果も含めてどこでどう動かせば良いのかといった話も多く出てくるだろう」と北村氏。日本のコミュニティー全体で知見を共有していきたい考えを示した。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
セルフ給油、実はスタッフが手動で許可していた!? コスモ石油の「AI監視」は消えゆくガソリンスタンドを救うか
-
2
「AIを使う学生」vs.「使わない学生」、エッセイが創造的なのはどっち? 米大学が2025年に実証実験
-
3
「AIコーディング」がたった5年で急進化したワケ NTT「tsuzumi 2」開発者が分析
-
4
月間売上1億円超、“推しAI”アプリ「Zeta」がオタク女子わしづかみ ただし危うさも
-
5
Anthropic、デザインツール「Claude Design」を強化 Codeとの双方向連携やCanvaなどへの出力をサポート
-
6
生成AI×3D CADでどこまでできるか試してみた
-
7
OpenAIのサム・アルトマンCEO、来日中止 都内イベント登壇予定を変更
-
8
財務諸表だけでは勝てない ブルームバーグ日本トップが語る「非構造化データ」の重要性
-
9
ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究
-
10
東芝の組み込み向け量子インスパイアード技術が進化、高速化と安定性を両立
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR