2019年にスタートした本連載「Innovative Tech」は、世界中の幅広い分野から最先端の研究論文を独自視点で厳選、解説する。執筆は研究論文メディア「Seamless」(シームレス)を主宰し、日課として数多くの論文に目を通す山下氏が担当。イラストや漫画は、同メディア所属のアーティスト・おね氏が手掛けている。X:@shiropen2
英インペリアル・カレッジ・ロンドンや米国の非営利団体Internet Archive、米スタンフォード大学に所属する研究者らが発表した論文「The Impact of AI-Generated Text on the Internet」は、インターネット上にあるAI生成テキストの割合と、それがもたらす影響を明らかにした研究報告だ。
2022年のChatGPT登場以来、インターネット上にはAIが作成した文章があふれるようになり、情報の質の低下を危惧する声が高まってきた。これまで実際にどの程度のWebサイトがAIによって書かれているのかは明確ではなかった。
そこで研究チームは、2022年8月から25年5月にかけて公開されたWebサイトを調査した。その結果、新しく公開されたサイトの約35%がAIによって生成されたか、あるいはAIの支援を受けて執筆された可能性が浮上した。
調査では、インターネット上のAIコンテンツの割合を把握するため、まず過去のWebページを保存しているInternet Archiveが運営する「Wayback Machine」を活用した。
具体的には、2022年8月から25年5月にかけて公開されたWebサイトの中から、特定のドメインに偏りが出ないよう毎月約1万件のURLを無作為に抽出。そして、ページ内のテキストを抽出し、高性能なAIテキスト検出器にかけて解析を行った。
この際、事前に4種類の検出ツールをテストし、長文や短文、異なるAIモデル(GPT、Claude、Geminiなど)、さまざまな言語に対しても安定して高い精度を出せる「Pangram v3」というツールを厳選して採用している。
このツールを用いて膨大な文章を「完全にAIが生成したもの」「AIの支援を受けて人間が書いたもの」「完全に人間が書いたもの」の3つに分類した結果、新しく公開されたサイトの約35%がAIによって生成、あるいはAIの支援を受けて執筆されたものであると確認された。
研究チームは、人々の意識調査と実際のデータ分析の両面から、AIの普及がネット空間に与える影響を検証した。アンケート調査では、大多数の人が「AIのせいで間違った情報が増えた」「個人の独特な文体が失われ、どれも似たような文章になった」と心配していることが示された。
しかし、Web上の膨大なテキストデータを実際に解析すると、人々のイメージとは異なる事実が浮かび上がった。一般の人々が懸念していた事実の正確性の低下や文体の画一化については、インターネット全体という広い視点で見ると、実は目立って悪化しているという証拠は見つからなかった。
一方で実際のデータからは、明確に進行していると裏付けられた2つの大きな変化が見られた。1つ目は、文章が表す意味や意見が似通ってくる意味的多様性の縮小。AIが生成したWebサイト群は、人間が書いたサイト群と比較して、書かれている内容の類似性が33%も高かった。AIは極端な意見を避け、平均的で無難な回答を出力することもある。このデータは、ネット上の多様な視点や独自のアイデアが狭まっている可能性を示している。
第2に、不自然なほど明るい文章が増加する「ポジティビティ・シフト」。AI生成が関与したサイトのポジティブな感情を示すスコアは、人間が書いたサイトに比べて2倍以上(107%増)も高かった。これは、AIが人間に嫌われないように過剰に明るく、当たり障りなく振る舞う性質に由来し、オンラインの文章が人工的に健全すぎるものへと変化していることが実証された。
つまり、現在のインターネットにおいて実際に起きている危機とは、分かりやすいウソやデマが爆発的に増えていることではなく、AI特有の「当たり障りのない、不自然に明るい文章」がネット上に多くなってきたことが示唆された。
生成AIの文章やコード、論文が“事実か”チェックする技術 米Meta含む研究者らが開発
Google、文章から動画を生成するAI「Imagen Video」を紹介 Metaに続き
「脳内のゴミ掃除機能」壊す新たな一因を特定 抗体で狙い撃ち→マウスのアルツハイマー症状が改善
「セーラームーンに似ている」 生成AIを使った化粧品の広告が物議 メーカーは謝罪と広告の撤去を発表Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR