「LRM(大規模推論モデル)の推論能力に限界」──Appleが論文発表
米AppleのAI研究者らは6月8日(現地時間)、「The Illusion of Thinking:Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」(思考の錯覚:問題の複雑さというレンズを通して推論モデルの長所と限界を理解する)という論文を発表した。
研究の結果、LLM(大規模言語モデル)とLRM(大規模推論モデル)が数学的な問題解決で、真の論理的推論ではなく、訓練データに基づく確率的なパターンマッチングに大きく依存している可能性があるとしている。
この研究では、既存の評価手法の限界を克服するため、新たなベンチマークや制御可能な環境を用いている。
LRMの推論メカニズムの分析には、従来のGSM8Kのような数学ベンチマークではなく、問題の複雑さを体系的に操作できる制御可能なパズル環境(ハノイの塔、チェッカージャンプ、リバー・クロッシング、Blocks Worldなど)を用いた。
評価対象のLRMは、OpenAIのo3-mini(mediumおよびhigh構成)、DeepSeek-R1、DeepSeek-R1-Qwen-32B、AnthropicのClaude 3.7 Sonnet Thinking。
分析の結果、LRMの推論能力に関する以下のような重要な知見が得られたという(一部を紹介)。
特定の複雑さを超えると精度が完全に崩壊
最先端のLRMでさえ、パズルの複雑さ(ディスク数、チェッカー数、人数、ブロック数などで制御)が一定の閾(いき)値を超えると、その精度が完全に崩壊することが明らかになった。これは、汎化可能な問題解決能力を開発できていないことを示唆している。
複雑さに対する推論努力の限界と非直観的なスケーリング
LRMの推論努力(思考トークン量で測定)は、ある点まで問題の複雑さと共に増加するが、十分なトークン予算があるにもかかわらず、その点を過ぎると非直観的に減少し始めた。
これは、問題の複雑さに対するLRMの推論能力における根本的なスケーリング限界を示唆している。
思考プロセス(推論トレース)の分析から見えるパターン
LRMが生成する中間的な推論トレースを分析すると、複雑さに依存したパターンが見られた。比較的単純な問題では、「Overthinking(考えすぎ)」が見られ、正しい解を見つけた後も不要な探索を続ける傾向があった。 中程度の複雑さでは、誤った探索の後で正しい解にたどり着くパターンが増えた。高度な複雑さの問題では、正しい解を全く見つけられない完全な失敗が観察された。
これらのパターンは、LRMの自己修正能力が限定的であり、明確なスケーリング限界があることを示している。
Appleの研究者らは結論として、真の推論への道は遠いとしている。
「われわれの研究結果は、現在のモデルの根本的な限界を明らかにしている。洗練された自己反省メカニズムにもかかわらず、これらのモデルは、特定の複雑さの閾値を超えると一般化可能な推論能力を開発できない」と指摘し、現在のアプローチでは一般化可能な推論に対する根本的な障壁に直面する可能性があると主張している。
Appleは昨年10月、現在のLLMには真の推論は困難だという論文を発表している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
セルフ給油、実はスタッフが手動で許可していた!? コスモ石油の「AI監視」は消えゆくガソリンスタンドを救うか
-
2
OpenAIのサム・アルトマンCEO、来日中止 都内イベント登壇予定を変更
-
3
月間売上1億円超、“推しAI”アプリ「Zeta」がオタク女子わしづかみ ただし危うさも
-
4
OpenAI創業者、巨大モデルのアップデート作業は「大きな苦痛だった」――月イチ更新を可能にした体制とデータの重要性
-
5
ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究
-
6
生成AI×3D CADでどこまでできるか試してみた
-
7
OpenAIの高度AIでソフトバンクの脆弱性を1万件発見 孫正義氏「大変な危機」 日本の重要インフラ企業へ診断サービス提供
-
8
「生成AIは大手なら安心」とは限らない? 突然の提供停止が招くリスク顕在化
-
9
財務諸表だけでは勝てない ブルームバーグ日本トップが語る「非構造化データ」の重要性
-
10
SpaceX、AIコーディング「Cursor」を9.6兆円で買収 「近く大幅な改善」へ
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR