主要各社のLLM、EUのAI規制に違反の恐れ──評価テストで低スコア
複数の代表的な大規模言語モデル(LLM)が、EUが策定した世界初の包括的なAI規制「AI法」(EU AI Act)で求められる重要項目の基準を下回っているかもしれないことが分かった。ロイターが閲覧したデータによると、サイバーセキュリティに関する耐性や、差別や偏見を排した回答といった項目で低評価がついた。
評価は、スイスのスタートアップ企業LatticeFlowが中心となり、EUの支援を受けて実施。今後2年間に段階的に施行されるAI法の規定に基づき、数十の項目で生成AIを評価するツール「大規模言語モデル(LLM)チェッカー」を開発した。
LatticeFlowが10月16日に公表したデータでは、中国Alibaba、米Anthropic、米OpenAI、米Meta、仏Mistral AIなどが開発した生成AIの平均スコアは0.75以上だった(最低はゼロ、最高は1)。ただし、セキュリティなどのAI法の重要な項目のいくつかで基準に届いていなかったという。コンプライアンス違反と判定された場合、3500万ユーロ(3800万ドル)または全世界の年間売上高の7%の制裁金を科される。
生成AIモデルの開発で課題とされる、性別や人種などで差別や偏見のない回答をするか、という評価テストでは、OpenAIのGPT-3.5 Turboが0.46、Alibabaの「Qwen1.5 72B Chat」は0.37だった。
ハッカーが悪意のあるプロンプトを駆使する「プロンプト・ハイジャック」と呼ばれる一種のサイバー攻撃に関するテストでは、Metaの「Llama 2 13B Chat」が0.42、Mistral AIの「8x7B Instruct」が0.38だった。
平均スコアが最も高かったのはAnthropicの「Claude 3 Opus」で0.89だった。
LatticeFlowによると、LLMチェッカーは開発者がコンプライアンスをチェックできるよう、オンラインで自由に利用できるようにする予定。
同社のペタル・ツァンコフCEOはロイターにテスト結果は全体的に良好と述べた。EUがコンプライアンス・ベンチマークを策定中だが、すでに基準未達の項目が見られると指摘し「AI開発各社はコンプライアンスの最適化に重点を置くことで、規制要件を満たす準備を整えられる」と述べた。
欧州委員会の報道官は「欧州委員会は、AI法を技術的要件に変換する第一歩として、この研究とAIモデル評価プラットフォームを歓迎する」と述べた。
Copyright © Thomson Reuters
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
2
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
3
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
4
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
5
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
6
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
7
ひろゆき氏「SIer衰退予測」、AI代替の「逆転現象」の理由 2026年に生き残るエンジニア“4つの役割”
-
8
日本の「完璧主義」から脱却し中国ヒューマノイドにどう立ち向かうか
-
9
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
-
10
AWSの「静かな」戦略シフト OpenAIとAnthropic“1日違い登壇”の意味を読み解く
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR