OpenAI「GPT-4.5」、チューリングテストに合格 7割超が“人間と誤認” 米カリフォルニア大
米カリフォルニア大学の研究チームは3月31日(現地時間)、米OpenAIのAIモデル「GPT-4.5」が、人間とAIを見分ける試験「チューリングテスト」に合格したとする査読前論文を発表した。試験では70%超がGPT-4.5を人間と誤認したという。
チューリングテストは、1950年にイギリスの数学者アラン・チューリングが提案した思考実験。テストでは、人間とコンピュータを回答者として用意。質問者は相手が人間かどうか分からない状況で、それぞれとテキストベースで会話し、どちらが人間か推測する。人間とコンピュータを見分けられない場合、コンピュータは“人間らしい”知性を示せたとしてテストに合格する。
今回の検証では、GPT-4.5に加え、同社のAIモデル「GPT-4o」、米Metaの「LLaMa-3.1-405B」(LLaMa)を用意。GPT-4.5とLLaMaについては、事前に“人間らしく”ふるまうよう追加で指示したモデル「GPT-4.5-PERSONA」「LLAMA-PERSONA」も作成した。なお人間が性能の高くないAIを識別できることを確認するため、1966年開発の古典的なチャットbot「ELIZA」も実験の対象とした。
実験に参加したのは、カリフォルニア大で心理学を専攻する学部生126人と、外部から集めた158人。質問者は、上記6種類いずれかと自分以外の被験者(人間)の2者と同時に、5分間チャット形式で会話。どちらが人間か当てる実験を行った。
その結果、質問者はGPT-4.5-PERSONAを73%の確率で人間と誤認した。これは人間の回答者を選ぶ確率よりも有意に高かった。続けて誤認率が高かったのは、LLAMA-PERSONA(56%)。これらのモデルでは「内向的で、インターネット文化に精通しており、スラングを使用する若者」のような振る舞いをさせていたという。一方、その他のモデルは40%以下の誤認率となった。
質問者がどのような考えで回答者を評価したのかを聞くと、最も一般的なアプローチは「雑談」(実験の61%で発生)で、日常活動や個人的な詳細について尋ねるものだった。次点では「回答者の社会的・感情的な特性を探る」(50%)で、意見や感情、ユーモア、経験などについて質問するものだった。
質問者が人間かAIを判断した理由として最も多かったのは、「タイプミス」や「より人間らしい言語を使用したか」などの評価項目である「言語スタイル」(27%)だった。また「証人Bは質問を避け続けた」や「会話がよりスムーズだった」など「対話のダイナミクス」(23%)を評価する声もあった。多くの理由は一般的な「直感」を表現するものでもあり、参加者が判断の理由を明確に言葉にできないことを示していた。
この結果から、研究チームは「GPT-4.5-PERSONAは偶然を大幅に上回る勝率を達成した」と説明。「他の人間の参加者よりも、このモデル(GPT-4.5-PERSONA)が人間だと信じる可能性が高い」としている。
一方研究チームは、チューリングテストがAIの知性を正確に測れているのかなどについて、さまざまな議論があるとも指摘する。
「基本的にチューリングテストは知能を直接テストするものではなく、人間らしさをテストするもの。アラン・チューリングにとって、知能は人間らしく見えること、つまりチューリングテストに合格することが最大の障壁に見えたかもしれない。しかし機械が人間に似てくるにつれ、その他の(機械と人間の)違いがより鮮明になり、知能だけでは説得力を持って人間らしく見せるのに不十分になっている」(研究チーム)
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
4
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
7
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
8
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
9
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR