「LRM（大規模推論モデル）の推論能力に限界」──Appleが論文発表

Appleの研究者らは論文で、LRM（大規模推論モデル）の推論能力の限界を指摘した。LRMは真の論理的推論ではなく、データに基づくパターンマッチングに依存しているという。問題の複雑さが一定の閾値を超えると精度が崩壊し、汎化能力に根本的な限界があることを示唆した。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米AppleのAI研究者らは6月8日（現地時間）、「The Illusion of Thinking:Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」（思考の錯覚：問題の複雑さというレンズを通して推論モデルの長所と限界を理解する）という論文を発表した。

　研究の結果、LLM（大規模言語モデル）とLRM（大規模推論モデル）が数学的な問題解決で、真の論理的推論ではなく、訓練データに基づく確率的なパターンマッチングに大きく依存している可能性があるとしている。

　この研究では、既存の評価手法の限界を克服するため、新たなベンチマークや制御可能な環境を用いている。

　LRMの推論メカニズムの分析には、従来のGSM8Kのような数学ベンチマークではなく、問題の複雑さを体系的に操作できる制御可能なパズル環境（ハノイの塔、チェッカージャンプ、リバー・クロッシング、Blocks Worldなど）を用いた。

　評価対象のLRMは、OpenAIのo3-mini（mediumおよびhigh構成）、DeepSeek-R1、DeepSeek-R1-Qwen-32B、AnthropicのClaude 3.7 Sonnet Thinking。

　分析の結果、LRMの推論能力に関する以下のような重要な知見が得られたという（一部を紹介）。

特定の複雑さを超えると精度が完全に崩壊

　最先端のLRMでさえ、パズルの複雑さ（ディスク数、チェッカー数、人数、ブロック数などで制御）が一定の閾（いき）値を超えると、その精度が完全に崩壊することが明らかになった。これは、汎化可能な問題解決能力を開発できていないことを示唆している。

複雑さに対する推論努力の限界と非直観的なスケーリング

　LRMの推論努力（思考トークン量で測定）は、ある点まで問題の複雑さと共に増加するが、十分なトークン予算があるにもかかわらず、その点を過ぎると非直観的に減少し始めた。

　これは、問題の複雑さに対するLRMの推論能力における根本的なスケーリング限界を示唆している。

思考プロセス（推論トレース）の分析から見えるパターン

　LRMが生成する中間的な推論トレースを分析すると、複雑さに依存したパターンが見られた。比較的単純な問題では、「Overthinking（考えすぎ）」が見られ、正しい解を見つけた後も不要な探索を続ける傾向があった。　中程度の複雑さでは、誤った探索の後で正しい解にたどり着くパターンが増えた。高度な複雑さの問題では、正しい解を全く見つけられない完全な失敗が観察された。

　これらのパターンは、LRMの自己修正能力が限定的であり、明確なスケーリング限界があることを示している。

　Appleの研究者らは結論として、真の推論への道は遠いとしている。

　「われわれの研究結果は、現在のモデルの根本的な限界を明らかにしている。洗練された自己反省メカニズムにもかかわらず、これらのモデルは、特定の複雑さの閾値を超えると一般化可能な推論能力を開発できない」と指摘し、現在のアプローチでは一般化可能な推論に対する根本的な障壁に直面する可能性があると主張している。

　Appleは昨年10月、現在のLLMには真の推論は困難だという論文を発表している。

「LRM（大規模推論モデル）の推論能力に限界」──Appleが論文発表

特定の複雑さを超えると精度が完全に崩壊

複雑さに対する推論努力の限界と非直観的なスケーリング

思考プロセス（推論トレース）の分析から見えるパターン

関連記事

関連リンク