「LRM(大規模推論モデル)の推論能力に限界」──Appleが論文発表
米AppleのAI研究者らは6月8日(現地時間)、「The Illusion of Thinking:Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」(思考の錯覚:問題の複雑さというレンズを通して推論モデルの長所と限界を理解する)という論文を発表した。
研究の結果、LLM(大規模言語モデル)とLRM(大規模推論モデル)が数学的な問題解決で、真の論理的推論ではなく、訓練データに基づく確率的なパターンマッチングに大きく依存している可能性があるとしている。
この研究では、既存の評価手法の限界を克服するため、新たなベンチマークや制御可能な環境を用いている。
LRMの推論メカニズムの分析には、従来のGSM8Kのような数学ベンチマークではなく、問題の複雑さを体系的に操作できる制御可能なパズル環境(ハノイの塔、チェッカージャンプ、リバー・クロッシング、Blocks Worldなど)を用いた。
評価対象のLRMは、OpenAIのo3-mini(mediumおよびhigh構成)、DeepSeek-R1、DeepSeek-R1-Qwen-32B、AnthropicのClaude 3.7 Sonnet Thinking。
分析の結果、LRMの推論能力に関する以下のような重要な知見が得られたという(一部を紹介)。
特定の複雑さを超えると精度が完全に崩壊
最先端のLRMでさえ、パズルの複雑さ(ディスク数、チェッカー数、人数、ブロック数などで制御)が一定の閾(いき)値を超えると、その精度が完全に崩壊することが明らかになった。これは、汎化可能な問題解決能力を開発できていないことを示唆している。
複雑さに対する推論努力の限界と非直観的なスケーリング
LRMの推論努力(思考トークン量で測定)は、ある点まで問題の複雑さと共に増加するが、十分なトークン予算があるにもかかわらず、その点を過ぎると非直観的に減少し始めた。
これは、問題の複雑さに対するLRMの推論能力における根本的なスケーリング限界を示唆している。
思考プロセス(推論トレース)の分析から見えるパターン
LRMが生成する中間的な推論トレースを分析すると、複雑さに依存したパターンが見られた。比較的単純な問題では、「Overthinking(考えすぎ)」が見られ、正しい解を見つけた後も不要な探索を続ける傾向があった。 中程度の複雑さでは、誤った探索の後で正しい解にたどり着くパターンが増えた。高度な複雑さの問題では、正しい解を全く見つけられない完全な失敗が観察された。
これらのパターンは、LRMの自己修正能力が限定的であり、明確なスケーリング限界があることを示している。
Appleの研究者らは結論として、真の推論への道は遠いとしている。
「われわれの研究結果は、現在のモデルの根本的な限界を明らかにしている。洗練された自己反省メカニズムにもかかわらず、これらのモデルは、特定の複雑さの閾値を超えると一般化可能な推論能力を開発できない」と指摘し、現在のアプローチでは一般化可能な推論に対する根本的な障壁に直面する可能性があると主張している。
Appleは昨年10月、現在のLLMには真の推論は困難だという論文を発表している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
2
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
-
3
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
4
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
5
Anthropicの営業はAIエージェントをこう使う! 日本法人メンバーが明かす手の内
-
6
復活した「Fable 5」 米政府からのオーダーに対して、Anthropicはどう対策したのか
-
7
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
8
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
9
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
10
光接続の標準規格「OCI」対応シリコン、GFが27年に投入
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR