「LRM(大規模推論モデル)の推論能力に限界」──Appleが論文発表
Appleの研究者らは論文で、LRM(大規模推論モデル)の推論能力の限界を指摘した。LRMは真の論理的推論ではなく、データに基づくパターンマッチングに依存しているという。問題の複雑さが一定の閾値を超えると精度が崩壊し、汎化能力に根本的な限界があることを示唆した。
米AppleのAI研究者らは6月8日(現地時間)、「The Illusion of Thinking:Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」(思考の錯覚:問題の複雑さというレンズを通して推論モデルの長所と限界を理解する)という論文を発表した。
研究の結果、LLM(大規模言語モデル)とLRM(大規模推論モデル)が数学的な問題解決で、真の論理的推論ではなく、訓練データに基づく確率的なパターンマッチングに大きく依存している可能性があるとしている。
この研究では、既存の評価手法の限界を克服するため、新たなベンチマークや制御可能な環境を用いている。
LRMの推論メカニズムの分析には、従来のGSM8Kのような数学ベンチマークではなく、問題の複雑さを体系的に操作できる制御可能なパズル環境(ハノイの塔、チェッカージャンプ、リバー・クロッシング、Blocks Worldなど)を用いた。
評価対象のLRMは、OpenAIのo3-mini(mediumおよびhigh構成)、DeepSeek-R1、DeepSeek-R1-Qwen-32B、AnthropicのClaude 3.7 Sonnet Thinking。
分析の結果、LRMの推論能力に関する以下のような重要な知見が得られたという(一部を紹介)。
特定の複雑さを超えると精度が完全に崩壊
最先端のLRMでさえ、パズルの複雑さ(ディスク数、チェッカー数、人数、ブロック数などで制御)が一定の閾(いき)値を超えると、その精度が完全に崩壊することが明らかになった。これは、汎化可能な問題解決能力を開発できていないことを示唆している。
複雑さに対する推論努力の限界と非直観的なスケーリング
LRMの推論努力(思考トークン量で測定)は、ある点まで問題の複雑さと共に増加するが、十分なトークン予算があるにもかかわらず、その点を過ぎると非直観的に減少し始めた。
これは、問題の複雑さに対するLRMの推論能力における根本的なスケーリング限界を示唆している。
思考プロセス(推論トレース)の分析から見えるパターン
LRMが生成する中間的な推論トレースを分析すると、複雑さに依存したパターンが見られた。比較的単純な問題では、「Overthinking(考えすぎ)」が見られ、正しい解を見つけた後も不要な探索を続ける傾向があった。 中程度の複雑さでは、誤った探索の後で正しい解にたどり着くパターンが増えた。高度な複雑さの問題では、正しい解を全く見つけられない完全な失敗が観察された。
これらのパターンは、LRMの自己修正能力が限定的であり、明確なスケーリング限界があることを示している。
Appleの研究者らは結論として、真の推論への道は遠いとしている。
「われわれの研究結果は、現在のモデルの根本的な限界を明らかにしている。洗練された自己反省メカニズムにもかかわらず、これらのモデルは、特定の複雑さの閾値を超えると一般化可能な推論能力を開発できない」と指摘し、現在のアプローチでは一般化可能な推論に対する根本的な障壁に直面する可能性があると主張している。
Appleは昨年10月、現在のLLMには真の推論は困難だという論文を発表している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表
Appleの研究者らは、「LLMにおける数学的推論の限界を理解する」という論文を発表した。OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高性能だが、真の推論には課題があるとしている。
日本解禁のiPhone AI「Apple Intelligence」とは 使える端末・できること・できないことをチェック
3月31日、米AppleがiPhoneやiPad、Mac向けAI機能群「Apple Intelligence」のβ版を日本でも利用可能にした。すでに米国などでは提供されていた機能群だが、新しくどんなことができるようになるのか。
AppleのAI戦略発表はなぜ他社より大幅に遅れたのか 「Apple Intelligence」の真価を読み解く
生成AIが爆速で進化していく中、AppleがAI戦略「Apple Intelligence」を発表したのは、競合よりも遅い2024年6月だった。しかしApple Intelligenceの内容を精査していくうちに、これは非常によく練られた計画だということに気付いた。彼らが1年(もしくは数年分)の長きにわたってやってきたことと、どうしてそうしなければならなかったかを考えてみたい。
Apple、iPhone上でのLLM実行を可能にする手法の論文を発表
Appleは「LLM in a flash:Efficient Large Language Model Inference with Limited Memory」という論文を発表した。メモリ容量が限られた端末上でLLMを実行するための革新的な手法を編み出したとしている。
