主要各社のLLM、EUのAI規制に違反の恐れ──評価テストで低スコア
複数の代表的な大規模言語モデル(LLM)が、EUが策定した世界初の包括的なAI規制「AI法」(EU AI Act)で求められる重要項目の基準を下回っているかもしれないことが分かった。ロイターが閲覧したデータによると、サイバーセキュリティに関する耐性や、差別や偏見を排した回答といった項目で低評価がついた。
複数の代表的な大規模言語モデル(LLM)が、EUが策定した世界初の包括的なAI規制「AI法」(EU AI Act)で求められる重要項目の基準を下回っているかもしれないことが分かった。ロイターが閲覧したデータによると、サイバーセキュリティに関する耐性や、差別や偏見を排した回答といった項目で低評価がついた。
評価は、スイスのスタートアップ企業LatticeFlowが中心となり、EUの支援を受けて実施。今後2年間に段階的に施行されるAI法の規定に基づき、数十の項目で生成AIを評価するツール「大規模言語モデル(LLM)チェッカー」を開発した。
LatticeFlowが10月16日に公表したデータでは、中国Alibaba、米Anthropic、米OpenAI、米Meta、仏Mistral AIなどが開発した生成AIの平均スコアは0.75以上だった(最低はゼロ、最高は1)。ただし、セキュリティなどのAI法の重要な項目のいくつかで基準に届いていなかったという。コンプライアンス違反と判定された場合、3500万ユーロ(3800万ドル)または全世界の年間売上高の7%の制裁金を科される。
生成AIモデルの開発で課題とされる、性別や人種などで差別や偏見のない回答をするか、という評価テストでは、OpenAIのGPT-3.5 Turboが0.46、Alibabaの「Qwen1.5 72B Chat」は0.37だった。
ハッカーが悪意のあるプロンプトを駆使する「プロンプト・ハイジャック」と呼ばれる一種のサイバー攻撃に関するテストでは、Metaの「Llama 2 13B Chat」が0.42、Mistral AIの「8x7B Instruct」が0.38だった。
平均スコアが最も高かったのはAnthropicの「Claude 3 Opus」で0.89だった。
LatticeFlowによると、LLMチェッカーは開発者がコンプライアンスをチェックできるよう、オンラインで自由に利用できるようにする予定。
同社のペタル・ツァンコフCEOはロイターにテスト結果は全体的に良好と述べた。EUがコンプライアンス・ベンチマークを策定中だが、すでに基準未達の項目が見られると指摘し「AI開発各社はコンプライアンスの最適化に重点を置くことで、規制要件を満たす準備を整えられる」と述べた。
欧州委員会の報道官は「欧州委員会は、AI法を技術的要件に変換する第一歩として、この研究とAIモデル評価プラットフォームを歓迎する」と述べた。

Copyright © Thomson Reuters
関連記事
日本のAI政策は、EUと異なる道に──平デジタル新大臣 「法的拘束力のある規制は必要最小限に」
平将明デジタル大臣が、東京都内開催のイベント「GenAI/SUM」で基調講演を行った。講演では、日本のAI政策の方向性や、デジタル政府におけるAIの活用など、幅広いテーマについて言及した。今回の講演は大臣就任後初の外部イベントでの登壇となり、日本の今後のAI戦略を示す重要な機会となった。
署名「画像生成AIからクリエイターを守ろう」が賛同1万件間近に 「AI生成物のみ非親告罪に」などを主張
オンライン署名サイト「Change.org」で署名を集めている「「AI法」を作り画像AI生成からクリエーターを守りましょう!!」のページの賛同数が間もなく1万件を迎える。署名の開始日は2023年6月8日で、4月8日午後6時時点では賛同が9632件となっている。
AIイラストの商業利用は誤りか? 仏マンガ出版社の炎上騒動が話題 メール取材で経緯を聞いた
商業利用におけるAIの部分的な使用は誤りだった──出版社の仏chattochattoが起用したAIイラストが物議を醸している。
「この絵、生成AI使ってますよね?」──“生成AIキャンセルカルチャー”は現代の魔女狩りなのか 企業が採るべき対策を考える
人気アニメシリーズ「プリキュア」の公式イラストを巡り、一部のユーザーから「生成AIを使って作成したのではないか」との声が上がる騒動が起きた。生成AIの利用自体に向けられる激しい嫌悪感「生成AIキャンセルカルチャー」について考察する。
