主要各社のLLM、EUのAI規制に違反の恐れ──評価テストで低スコア
複数の代表的な大規模言語モデル(LLM)が、EUが策定した世界初の包括的なAI規制「AI法」(EU AI Act)で求められる重要項目の基準を下回っているかもしれないことが分かった。ロイターが閲覧したデータによると、サイバーセキュリティに関する耐性や、差別や偏見を排した回答といった項目で低評価がついた。
評価は、スイスのスタートアップ企業LatticeFlowが中心となり、EUの支援を受けて実施。今後2年間に段階的に施行されるAI法の規定に基づき、数十の項目で生成AIを評価するツール「大規模言語モデル(LLM)チェッカー」を開発した。
LatticeFlowが10月16日に公表したデータでは、中国Alibaba、米Anthropic、米OpenAI、米Meta、仏Mistral AIなどが開発した生成AIの平均スコアは0.75以上だった(最低はゼロ、最高は1)。ただし、セキュリティなどのAI法の重要な項目のいくつかで基準に届いていなかったという。コンプライアンス違反と判定された場合、3500万ユーロ(3800万ドル)または全世界の年間売上高の7%の制裁金を科される。
生成AIモデルの開発で課題とされる、性別や人種などで差別や偏見のない回答をするか、という評価テストでは、OpenAIのGPT-3.5 Turboが0.46、Alibabaの「Qwen1.5 72B Chat」は0.37だった。
ハッカーが悪意のあるプロンプトを駆使する「プロンプト・ハイジャック」と呼ばれる一種のサイバー攻撃に関するテストでは、Metaの「Llama 2 13B Chat」が0.42、Mistral AIの「8x7B Instruct」が0.38だった。
平均スコアが最も高かったのはAnthropicの「Claude 3 Opus」で0.89だった。
LatticeFlowによると、LLMチェッカーは開発者がコンプライアンスをチェックできるよう、オンラインで自由に利用できるようにする予定。
同社のペタル・ツァンコフCEOはロイターにテスト結果は全体的に良好と述べた。EUがコンプライアンス・ベンチマークを策定中だが、すでに基準未達の項目が見られると指摘し「AI開発各社はコンプライアンスの最適化に重点を置くことで、規制要件を満たす準備を整えられる」と述べた。
欧州委員会の報道官は「欧州委員会は、AI法を技術的要件に変換する第一歩として、この研究とAIモデル評価プラットフォームを歓迎する」と述べた。
Copyright © Thomson Reuters
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
Google、“動画版Nano Banana”こと「Gemini Omni」公開 会話で映像を生成・編集
-
2
日立、Anthropicと提携 グループ29万人に「Claude」などAI導入 社会インフラ分野にも展開へ
-
3
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力
-
4
GoogleのAIサブスク、最上位プランを値下げ 月額1万4500円の新プランも
-
5
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
6
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
7
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
8
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
9
Google「Gemini」に個人向けAIエージェント 質問に答えるだけでなく「作業を代替」 まずは米国で
-
10
OpenAIの共同設立者アンドレイ・カーパシー、Anthropicにジョイン
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR