ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

今の技術ではChatGPTが書いた文章だと見抜けない? さまざまなツールで検証、成功率は50%以下にInnovative Tech

» 2023年04月13日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 ドイツのダルムシュタット工科大学に所属する研究者らが発表した論文「To ChatGPT, or not to ChatGPT: That is the question!」は、ChatGPTで生成した応答と人間が作った応答を区別することを目的としたさまざまなツールの有効性を評価し、その精度と信頼性を比較した研究報告である。

 この評価には、ChatGPTプロンプトの検出をうたうツールや、ChatGPT生成コンテンツを対象としないその他のAI生成テキスト検出ツールも含まれる。

 ChatGPTをはじめとする大規模言語モデル(LLM)が登場するにつれ、フェイクニュースの発信や盗作、世論操作、不正行為、詐欺など、さまざまな形で悪用される懸念が高まっている。よって、AIが生成したものと人間が生成したものを区別することがますます重要になってきている。

 研究者たちは、基本的な二値分類器からより複雑な深層学習モデルまで、さまざまな検出手法を提案してきた。統計的特徴や構文パターンに依存する検出手法もあれば、意味や文脈の情報を取り入れて精度を向上させる手法もある。

 この研究では、これらの全ツール(一般的なAIテキスト検出器とChatGPTで生成したテキストを対象とした検出器)を、異なるドメインにまたがるChatGPTプロンプトと人間の応答からなるベンチマークデータセットに対してテストし、正しく評価する。

 作成したベンチマークデータセットは、人間が生成した5万8546の応答とChatGPTモデルが生成した7万2966の応答から構成。13万1512のサンプルを生成し、医学や金融などさまざまな分野から2万4322種類の質問に対応する。

 さらに、このデータセットには、人気のあるソーシャルネットワーキングプラットフォームからの回答が含まれており、ユーザーが作成した幅広い視点が提供されている。

分析したAI生成テキストを検出できる手法が書かれた論文と評価結果

 24本の論文で提案されている検出モデルをベンチマークデータセットでテストした結果、全てのモデルで50%以下の成功率しか達成できないことが判明した。最大でも47.3%の成功率しか達成できず、20%台が多く、一桁台もいくつかあった。分析した検出器のほとんどが、どんなテキストでも人間が書いたと分類してしまう傾向があり、一般的にTNRが90%と高く、TPRは低いことが分かった。

Source and Image Credits: Alessandro Pegoraro, Kavita Kumari, Hossein Fereidooni, and Ahmad-Reza Sadeghi. To ChatGPT, or not to ChatGPT: That is the question!



Copyright © ITmedia, Inc. All Rights Reserved.