英米がAI性能評価の標準化に向け連携 明確な基準を示せるかCIO Dive

米英のAI安全性研究所がAI評価の分野で連携を強化する。AIの理解と適正な評価を促し、明確な指針を示すことが期待される。世界中のリーダーにとっての共通課題と言えるAIリスク軽減のための第一歩となるか。

» 2024年05月09日 10時00分 公開
[Lindsey WilkinsonCIO Dive]

この記事は会員限定です。会員登録すると全てご覧いただけます。

CIO Dive

 米国と英国は2024年4月1日(現地時間、以下同)、高度なAIの性能テスト手法やAIの標準的な安全性評価法の構築を含む拘束力のない合意を締結した(注1)。

指針の明確化によりAIのリスクを軽減できるか

 この合意は2023年11月に英国で開催された「AI Safety Summit 2023」を受け、AIに関連するリスクを軽減するため、両国のAI安全性研究所の取り組みを促進させるものだ(注2)(注3)(注4)。

 米国商務長官のジーナ・ライモンド氏は「われわれのパートナーシップは、これらの懸念から逃げているのではなく、それに向かって前進していることをはっきりと示している。お互いの協力により、両国のAI安全性研究所はAIシステムをより深く理解し、より確かな評価と厳格な指針を示せるだろう」と主張している。

 世界中のリーダーにとって、AIのリスク軽減は共通の優先事項である(注5)。しかし、規制当局が目標を達成するためには専門知識を養う必要がある。

 規制当局は適切な規則を策定し、AIモデルを評価するためにより深いレベルで技術を理解する必要があるが、技術革新と新規性が急速なペースで進んでいるため、明確な指針がない状態で追い付かなければならないという課題に直面している。

 AIベンダーは、一般的に使用されるテストにおけるAIモデルのスコアを評価する研究を公開している。

 Large Model Systems Organization(大規模モデルシステム機構)が開発した「Chatbot Arena」のように、公開型のフォーラムもAIモデルの挙動に関する理解を深めるのに役立つ(注6)。AIの性能評価プラットフォーム「Chatbot Arena」では、人間の投票でLLM(大規模言語モデル)がランク付けされる。2024年3月29日現在、「Claude 3 Opus」がOpenAIの「GPT-4」プレビューAIモデル2つと同点で首位だ(注7)。

 米国と英国のAI安全性研究所のパートナーシップは、AI性能評価の標準化だ。実現すれば規制当局が今後、AIの安全性やセキュリティ要件を確認する際にこの評価基準を活用できる。

 米国は正式な規制が不足しているにもかかわらず、AIの悪影響を減らしつつその可能性を引き出す目標に向けて前進している。連邦政府機関は、政権が命じた全てのタスクを150日以内に完了させた。

 この勢いを維持するため、ホワイトハウスは2024年夏までに100人のAI専門家を採用するよう働きかけている(注8)。

 一方、企業はLLMや生成AIツールの導入の是非を検討しているが、ITリーダーは課題に直面している。

 生成AIを迅速に導入しなければならないというプレッシャーと、ほとんどの組織における技術的ノウハウの欠如が相まって、誤った方向に進む可能性が十分にある(注9)。こうした状況によって、CIO(最高情報責任者)は人材戦略の再考や、従業員のトレーニングとスキルアップの必要性に迫られている。

© Industry Dive. All rights reserved.

注目のテーマ