メディア
ITmedia AI+ >

AIが100%突破できない「私はロボットではありません」 海外チームによる新CAPTCHA AI生成の“錯視画像”利用Innovative Tech(AI+)

» 2025年02月27日 12時00分 公開
[山下裕毅ITmedia]

Innovative Tech(AI+):

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。

X: @shiropen2

 オーストラリアのニューサウスウェールズ大学やシンガポールの南洋理工大学に所属する研究者らが発表した論文「IllusionCAPTCHA: A CAPTCHA based on Visual Illusion」は、AIが生成した錯視画像を利用する新しいセキュリティ対策を提案した研究報告である。

リンゴと都会の錯視画像

 「私はロボットではありません」でおなじみの米Googleが開発するセキュリティ技術「CAPTCHA」は、人間とbotを区別するために「人間にとって容易だがbotにとって困難」を目標に工夫して作られている。

 しかし、従来のCAPTCHAは大規模言語モデル(LLM)の進化により脆弱性を示している。そこでこの研究では、既存のCAPTCHAの課題を詳細に分析し、より効果的な解決策を提案する。

 研究チームはまず、現在のCAPTCHAの問題点を明らかにするため、包括的な実証研究を実施した。テキストベース、画像ベース、推論ベースの3種類のCAPTCHAについて、GPT-4oとGemini 1.5 pro 2.0の2つのLLMを用いて性能評価を行った。その結果、以下の4つのことが分かった。

 第1に、LLMはテキストベースのCAPTCHAにおいて、画像ベースや推論ベースのCAPTCHAよりも高い性能を示すことが分かった。第2に、Chain-of-Thought(CoT)を使うことで、LLMの複雑な推論CAPTCHAへの対応能力が向上することが分かった。第3に、推論ベースのCAPTCHAは、人間のユーザーにとって困難であることが分かった。第4に、人間のユーザーがLLMと同様の間違いを犯すことが多いことも分かった。

テキストベース、画像ベース、推論ベースの3種類のCAPTCHA

 これらの知見を基に、研究チームは新しいタイプのCAPTCHAである「IllusionCAPTCHA」を提案。これは視覚的錯覚を組み込んだ画像を使用するもので、AIモデルには解釈が困難だが、人間には認識しやすい特徴を持つ。

 具体的には、基本画像にプロンプトを組み合わせてAIで錯視画像を生成し、この錯視画像に基づいて複数の選択肢を作成する。さらに、botが予測可能な誤りを起こすように誘導する段階的な質問構造を組み込む。

(関連記事:君には見えるか? “錯視画像”を作り出す生成AI 「遠近で変わる絵」「白黒と色付きで変わる絵」など

 IllusionCAPTCHAをAIと人間が突破できるかを実験した結果、マルチモーダルLLMであるGPT-4oとGemini 1.5 pro 2.0は、このIllusionCAPTCHAをクリアすることができなかった。一方で人間のユーザーの86.95%が最初の試行でパスできた。これは従来のCAPTCHAシステムと比較して、著しく優れた性能を示している。

Source and Image Credits: Ding, Ziqi, et al. “IllusionCAPTCHA: A CAPTCHA based on visual illusion.” arXiv preprint arXiv:2502.05461(2025).



Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ