6月、AIの未来に関する2つの予測がされた。米Appleの研究者らが執筆した論文「The Illusion of Thinking」と、米OpenAIのサム・アルトマンCEOのブログ記事「The Gentle Singularity」だ。前者は悲観的、後者は楽観的な内容で、それぞれ大きな議論を巻き起こしている。今回はこの2つの予測を取り上げ、その意義について考えてみたい。
まずはAppleの研究者らによる論文「The Illusion of Thinking」だ。直訳すれば「思考の幻想」というタイトルになるが、ここで言う思考とは、もちろん「AIの思考」を指す。
研究者らは、最近主要AI企業から相次いでリリースされているLRM(Large Reasoning Model:大規模推論モデル)に焦点を当て、その強みと限界について論述。推論モデルの「思考」プロセスが、真の推論能力なのか、それとも見せかけにすぎないのか(つまり「幻想」ではないのか)という疑問を呈している。
もう少し詳しく見ていこう。この論文では、最先端のLLM(大規模言語モデル)、その推論バージョンであるLRMを取り上げ、その性能について分析を試みている。具体的には、OpenAI o1/o3、DeepSeek-R1、Claude 3.7 Sonnet Thinking、Gemini Thinkingの各モデルを使い、それらにさまざまな計算や論理パズル(ハノイの塔や川渡りパズルなど)をさせ、その実験結果から「考える力」を評価している。
結論として、簡単な問題では、普通のLLMの方が正確で速いこと。中くらいの難しさでは、「考えるAI」である推論モデルの方が優秀になること。しかしさらに難しい問題になると、どちらのAIも正解率が急激にゼロにまで落ち込むこと(研究者らはこれをaccuracy collapse、すなわち「精度の崩壊」現象と呼んでいる)などが明らかになった。
また推論モデルでは、問題が難しくなるにつれて途中まではCoT(Chain of Thought:思考の連鎖、推論過程)が長くなるが、ある限界を超えるとむしろ短くなり、推論そのものを諦めてしまうような振る舞いをすることを確認したという。
実際に、ハノイの塔の難しいバージョンや、川渡りなど複雑な手順が必要なパズルでは、推論モデルは正しい解答を出せなくなるだけでなく、解くための手順もまともに作れなくなったという。研究者らは、今のAIは「考えているように見える」が、本質的な意味での推論力はまだ限定的で、難問を解かせようとするとすぐ限界に達すると結論付けている。
前述の通り、このところ主要AI企業から推論モデルが相次いでリリースされ「AIの進化が新たな段階に入ったのでは」という期待が高まっている。例えば、AIコンサルティング企業であるキプロス共和国のTensorOpsのガド・ベンラムCTOは、推論モデルが「単なる会話能力ではなく、高度な推論能力に重点を置くことで、AGI(汎用人工知能)への大きな飛躍を示している」と解説。他にもさまざまな形で、推論能力がAGIへと至る道だとする主張をしている。
そうした期待の高まるLRMに対して、Appleの論文は冷や水を浴びせたわけだ。彼らの分析が正しければ、私たちは「幻想」にのせられて、このままでは来るはずのないAGIの夢を見ているということになる。
ただ、Appleの論文に対しては、いつくか反論もなされている。米AnthropicとOpen Philanthropy(米国のフィランソロピー団体)の研究者らが発表した「The Illusion of the Illusion of Thinking」論文は、「((Appleの論文は)実験設計にミスがありAIの本当の限界を示したものではない」と批判している。
Copyright © ITmedia, Inc. All Rights Reserved.