OpenAI「GPT-4.5」、チューリングテストに合格 7割超が“人間と誤認” 米カリフォルニア大
米カリフォルニア大学の研究チームは3月31日(現地時間)、米OpenAIのAIモデル「GPT-4.5」が、人間とAIを見分ける試験「チューリングテスト」に合格したとする査読前論文を発表した。試験では70%超がGPT-4.5を人間と誤認したという。
チューリングテストは、1950年にイギリスの数学者アラン・チューリングが提案した思考実験。テストでは、人間とコンピュータを回答者として用意。質問者は相手が人間かどうか分からない状況で、それぞれとテキストベースで会話し、どちらが人間か推測する。人間とコンピュータを見分けられない場合、コンピュータは“人間らしい”知性を示せたとしてテストに合格する。
今回の検証では、GPT-4.5に加え、同社のAIモデル「GPT-4o」、米Metaの「LLaMa-3.1-405B」(LLaMa)を用意。GPT-4.5とLLaMaについては、事前に“人間らしく”ふるまうよう追加で指示したモデル「GPT-4.5-PERSONA」「LLAMA-PERSONA」も作成した。なお人間が性能の高くないAIを識別できることを確認するため、1966年開発の古典的なチャットbot「ELIZA」も実験の対象とした。
実験に参加したのは、カリフォルニア大で心理学を専攻する学部生126人と、外部から集めた158人。質問者は、上記6種類いずれかと自分以外の被験者(人間)の2者と同時に、5分間チャット形式で会話。どちらが人間か当てる実験を行った。
その結果、質問者はGPT-4.5-PERSONAを73%の確率で人間と誤認した。これは人間の回答者を選ぶ確率よりも有意に高かった。続けて誤認率が高かったのは、LLAMA-PERSONA(56%)。これらのモデルでは「内向的で、インターネット文化に精通しており、スラングを使用する若者」のような振る舞いをさせていたという。一方、その他のモデルは40%以下の誤認率となった。
質問者がどのような考えで回答者を評価したのかを聞くと、最も一般的なアプローチは「雑談」(実験の61%で発生)で、日常活動や個人的な詳細について尋ねるものだった。次点では「回答者の社会的・感情的な特性を探る」(50%)で、意見や感情、ユーモア、経験などについて質問するものだった。
質問者が人間かAIを判断した理由として最も多かったのは、「タイプミス」や「より人間らしい言語を使用したか」などの評価項目である「言語スタイル」(27%)だった。また「証人Bは質問を避け続けた」や「会話がよりスムーズだった」など「対話のダイナミクス」(23%)を評価する声もあった。多くの理由は一般的な「直感」を表現するものでもあり、参加者が判断の理由を明確に言葉にできないことを示していた。
この結果から、研究チームは「GPT-4.5-PERSONAは偶然を大幅に上回る勝率を達成した」と説明。「他の人間の参加者よりも、このモデル(GPT-4.5-PERSONA)が人間だと信じる可能性が高い」としている。
一方研究チームは、チューリングテストがAIの知性を正確に測れているのかなどについて、さまざまな議論があるとも指摘する。
「基本的にチューリングテストは知能を直接テストするものではなく、人間らしさをテストするもの。アラン・チューリングにとって、知能は人間らしく見えること、つまりチューリングテストに合格することが最大の障壁に見えたかもしれない。しかし機械が人間に似てくるにつれ、その他の(機械と人間の)違いがより鮮明になり、知能だけでは説得力を持って人間らしく見せるのに不十分になっている」(研究チーム)
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
公式がワンコーラス公開→AIで無断フルコーラス化、拡散 大原ゆい子氏「無職転生III」OPが被害
-
2
ChatGPTで広告表示へ 無料・Goプランが対象 6月22日にポリシー更新
-
3
AIエージェントもフィッシング詐欺に引っかかる? 米セキュリティ企業がOpenClawで検証 結果は……
-
4
「Siri AI」の進化に「Geminiそのまま」の誤解――現地取材で見えた“新生Apple Intelligence”の全貌
-
5
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
6
政府・著名人のInstagramアカウントが次々に乗っ取り被害 原因はMetaのAIアシスタント?
-
7
JASRAC、「AI作曲・人間作詞」の曲は管理します――「人間の創作的寄与の有無」で線引き
-
8
「猫も杓子もAI」な現状は今後も続くのか?【後編】AI時代に必要な3つの検討事項
-
9
Apple「Siri AI」、13億台超が“利用不能”か? 新機能の拡大阻む“弱点”とは
-
10
“机の下でこっそり”AI使う――セールスフォース社長のAIエージェント活用術とは
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR