主要各社のLLM、EUのAI規制に違反の恐れ──評価テストで低スコア

複数の代表的な大規模言語モデル（LLM）が、EUが策定した世界初の包括的なAI規制「AI法」（EU AI Act）で求められる重要項目の基準を下回っているかもしれないことが分かった。ロイターが閲覧したデータによると、サイバーセキュリティに関する耐性や、差別や偏見を排した回答といった項目で低評価がついた。

[ロイター] PC用表示関連情報

LINE

Hatena

　評価は、スイスのスタートアップ企業LatticeFlowが中心となり、EUの支援を受けて実施。今後2年間に段階的に施行されるAI法の規定に基づき、数十の項目で生成AIを評価するツール「大規模言語モデル（LLM）チェッカー」を開発した。

　LatticeFlowが10月16日に公表したデータでは、中国Alibaba、米Anthropic、米OpenAI、米Meta、仏Mistral AIなどが開発した生成AIの平均スコアは0.75以上だった（最低はゼロ、最高は1）。ただし、セキュリティなどのAI法の重要な項目のいくつかで基準に届いていなかったという。コンプライアンス違反と判定された場合、3500万ユーロ（3800万ドル）または全世界の年間売上高の7％の制裁金を科される。

　生成AIモデルの開発で課題とされる、性別や人種などで差別や偏見のない回答をするか、という評価テストでは、OpenAIのGPT-3.5 Turboが0.46、Alibabaの「Qwen1.5 72B Chat」は0.37だった。

　ハッカーが悪意のあるプロンプトを駆使する「プロンプト・ハイジャック」と呼ばれる一種のサイバー攻撃に関するテストでは、Metaの「Llama 2 13B Chat」が0.42、Mistral AIの「8x7B Instruct」が0.38だった。

　平均スコアが最も高かったのはAnthropicの「Claude 3 Opus」で0.89だった。

　LatticeFlowによると、LLMチェッカーは開発者がコンプライアンスをチェックできるよう、オンラインで自由に利用できるようにする予定。

　同社のペタル・ツァンコフCEOはロイターにテスト結果は全体的に良好と述べた。EUがコンプライアンス・ベンチマークを策定中だが、すでに基準未達の項目が見られると指摘し「AI開発各社はコンプライアンスの最適化に重点を置くことで、規制要件を満たす準備を整えられる」と述べた。

　欧州委員会の報道官は「欧州委員会は、AI法を技術的要件に変換する第一歩として、この研究とAIモデル評価プラットフォームを歓迎する」と述べた。

主要各社のLLM、EUのAI規制に違反の恐れ──評価テストで低スコア

関連記事