生成AI、進化の鍵を握る「長期思考」 Sakana AIが挑む“人間のように試行錯誤するAI”への道筋:Sakana AI 秋葉氏に聞く
AIの進化は目覚ましく、その活用は日々広がっている。しかし、現在のAIにはまだ苦手な分野がある。それは数週間といった「長期間の思考」を要する複雑なタスクだ。この難題にAI研究の最前線はどう挑んでいるのか。Sakana AIの秋葉拓哉氏に話を聞いた。
AIの進歩は目覚ましく、「ChatGPT」の登場以降、企業での生成AI活用が広がっている。この分野の最前線を切り開く研究者は今、どのような課題に取り組んでいるのか。Sakana AIでリサーチサイエンティストを務める秋葉拓哉氏に、現在のAI研究が直面している課題、特に「長期間の思考」が求められるタスクへの取り組みについて聞いた。
プロフィール
秋葉拓哉(Akiba Takuya)
Sakana AI Research Scientist
東京大学大学院情報理工学系研究科で博士号を取得。国立情報学研究所、Preferred Networks、Stability AIを経て、2023年12月にSakana AIに入社し現職。
ハイパーパラメータ最適化フレームワークの「Optuna」や、分散深層学習フレームワークの「ChainerMN」といったOSS機械学習ソフトウェアパッケージの開発者。
20年以上のプログラミング経験があり、「TopCoder」や「Google Code Jam」といった世界的なコーディングコンテストでトップ10にランクインした実績を持つ。
現在は、自然から得た着想を基に新しい基盤モデルの研究開発に取り組みながら、研究チームのマネジメントも担う。
AIで"高度なタスク”の解決を目指す
――まず、秋葉さんが現在、研究者として特に注力されているテーマについて教えてください。
秋葉氏: 私が力を入れているのは、AIを使って難しい問題を解く、あるいは専門家に近いパフォーマンスを出せるような技術開発です。究極的には、研究のような高度なタスクをAIが自律的に達成できることを目指しています。
――具体的にどのような種類の問題が「難しい問題」に該当するのでしょうか。
秋葉氏: よくある、短時間で複数の問題を解くようなプログラミングコンテストは短期間で取り組む「Short-Horizon Task」です。そのようなタスクはAIが簡単に解けてしまうと私たちは考えています。それよりも、数日あるいは数週間といった長期間かけて取り組む「Long-Horizon Task」の解決に貢献することを目指しています。
このようなタスクは長い思考と、多様なアイデアを基にした試行錯誤が必要なため、AIにとってよりチャレンジングであり、これを解けるようになることは(Short-Horizon Taskの解決と比較して)より実用的だと考えます。例えば、複数の荷物を最短ルートで配送する輸送計画のような複雑な「組合せ最適化問題」がこれに該当します。
AIが長期プロジェクトを回せるようになるには
――Long-Horizon Taskの解決能力を評価するための具体的な取り組みとして、「ALE-Agent」と「ALE-Bench」を発表されています。その成果についてお聞かせください。
秋葉氏: Long-Horizonなアルゴリズム能力を測定する方法がこれまでなかったため、私たちは「ALE-Bench」(ALgorithm Engineering Benchmark)というベンチマークを開発しました。
また、私たちはAIエージェントとして「ALE-Agent」も開発しました。これはAtCoderが開催するプログラミングコンテスト「AtCoder Heuristic Contest」に出場し、21位(上位2%)にランクインしました。このコンテストは数時間から数週間をかけて取り組まれるような難しい問題を解くものです。
この研究は、Short-Horizon Taskの処理に集中していたAIコミュニティに対して、Long-Horizon Taskの重要性を提起することを目的としています。
筆者注: 一口に「プログラミングコンテスト」と言ってもさまざまな種目が存在する。今回ALE-Agentが参戦したのは、1つの難しい問題に長時間取り組むタイプのコンテストだ。短期のコンテストではAIを使った手法が非常に強力であることが分かっており、AtCoderも「生成AIルール」を策定して「APIやスクリプト等を用いて、生成AIに多数の出力を自動生成させる行為」を禁止しているほどだ。こういった状況を踏まえて、Sakana AIは、より難しい問題の解決策を長期間検討できるAIの実現にチャレンジしている。
――AIがLong-Horizon Taskを解決する技術は現状どの段階にあるのでしょうか。
秋葉氏: AIによるLong-Horizon Taskの解決はまだ初期段階であり、私自身の研究も、すぐに顧客に提供できるようなソリューションの開発まではたどり着いていません。
このタスクの難しさは、主に2点あります。一つは効果的な記憶システムです。コンテキストをしっかり覚え過ぎると、計算コストが高かったり、不要な情報が混じってしまいAIが注意散漫になってしまったりします。かといって、情報をコンテキストではなく学習データとみなしてモデルの内部ウェイトそのものを学習を通じ更新することは、多大な計算コストや調整の手間がかかります。人間のように、ふんわりとした記憶を元に思考しつつ、必要に応じて時間をかけて過去のことを思い出す、そういった柔軟な記憶を実現することが現状非常に難しいです。
もう一つは、強化学習(RL)における課題です。最近のLLMの進展はRLによるものですが、RLはタスクが長大になるほど難しくなります。長期間の思考錯誤は、得られるフィードバックの回数(試行錯誤の回数)が少なくなり、AIが学べる量が減ってしまうからです。また、長いタスクの終わりに「良かった/悪かった」とだけ評価されても、途中の何が良かったか、悪かったかを緻密に判断できないため、非効率になるという課題(クレジットアサインメント《貢献度分配》問題)も残っています。
筆者注: 「強化学習」(RL:Reinforcement Learning)とは、プログラムの行動に対するフィードバックをトレーニングデータとして使って学習する方法だ。特に、「人間のフィードバックからの強化学習」(RLHF:Reinforcement Learning from Human Feedback)がLLMの進化に貢献したとされる。
――長大なコンテキストを読み込めるLLMも登場しています。これだけでは、Long-Horizon Taskの処理につながらないのでしょうか。
秋葉氏: 「長い本は読めるけど、長期プロジェクトの設計はできない」人がいるように、「読める」というスキルと「計画できる」というスキルは全く別物です。また、AIを賢くするためにコンテキスト長を伸ばすと、「Transformer」モデルの計算量が膨大になってしまいますし、メモリに蓄えておけるキャッシュの量にも限りがあります。そういう意味でも、LLMに効率的に記憶させる、適切な記憶を呼び起こす仕組みをどう開発するのか、という問題は研究コミュニティの大きな関心事だと思います。
AIは人間の仕事を肩代わりできるか
――AIがLong-Horizonなアルゴリズム問題を処理できるようになることは、オフィスワーカーの業務など、より広範なタスクにどのように応用できるとお考えでしょうか。
秋葉氏: 個人的な予想としては、アルゴリズム能力の向上は、オフィスでのタスク能力と密接に関係していると信じています。例えば、OpenAIが2024年9月にリリースした「o1」モデルの成功は、数学と競技プログラミングにおけるRLによるものであり、この能力が他のタスクを処理する能力にも波及効果をもたらしました。
オフィスでのLong-Horizon Taskを処理する能力を測る著名なベンチマークとして「The Agent Company」が知られています。これはAIエージェントがWebブラウジングやコーディング、コミュニケーションなど、デジタルワーカーのタスクをこなす能力を評価するものです。
――AIが人間と同じようなパフォーマンスを発揮するには、学習データの範囲を超えて、未知の課題に対応する能力も必要だと思われます。この点についてはどのようにお考えですか。
秋葉氏: 「機械学習は内挿(Interpolation)はできるが外挿(Extrapolation)は苦手」という通説があり、これはAIの"創造性”に関する重要な論点です。
筆者注: 内挿(Interpolation)とは、機械学習モデルにおいて訓練データの範囲内で出力を求めること、外挿(Extrapolation)とはその範囲外で出力を求めることを指す。「内挿はできるが外挿は苦手」というのはつまり、「学んだことの範囲内であれば、より正確に答えられる。学んでいないことについては、答えられるが、その回答はあまり信用できない」という意味になる。
しかし、私は楽観的に考えています。AIは実際には人間と同じように物事を考えられるようになってきています。AIは単なる知識だけでなく、人間の考え方(方法論)をインプットされています。それらを組み合わせて、人間がたどり着いていないところに、人間と同じような道筋でたどり着いたならば、それは十分"創造的”と言えると考えています。
――ありがとうございました。
インタビューを終えて
ChatGPTの登場以降、生成AIは驚異的なスピードで社会に浸透し、その能力に多くの人が目を見張っている。一方で、その限界や次の進化の方向性については、専門家でなければ見通すことは難しい。今回の秋葉氏へのインタビューは、まさにその最前線で何が起きているのかを具体的に示してくれる、知的好奇心を刺激される時間だった。
特に印象的だったのは、「Long-Horizon Task」と呼ばれる、長期間にわたる思考と試行錯誤を要する課題にAIがいかにして取り組むか、というテーマだ。AIが人間のような柔軟な記憶システムを身に付ける日は来るのか。AIの“記憶”を制御する技術として「RAG」を導入する事例は最近よく耳にする。取得した情報をさらに効率的に処理できるようになれば、いよいよ、“相手がAIであることを意識せずに”AIと協働できる未来も近そうだ。
Long-Horizon Taskの処理という壮大な課題に対し、Sakana AIはまず評価の物差し(ベンチマーク)を作ることから始め、実際にAIエージェントをコンテストに出場させて成果を上げるなど、1歩ずつ着実に歩を進めている。AIが自律的に高度なタスクを担うという究極の目標の実現はまだ先かもしれないが、今回のインタビューではその道のりの一端を垣間見ることができた。今後の研究動向にも注目していきたい。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
「独自データを持つ企業が勝つ」 デルが説く“データを生かす”インフラの再設計
デル・テクノロジーズが開催したイベントで、AI時代の新たなインフラ像が示された。クラウド集中型から分散型へと転換することで、企業のAI活用はどう変わるのか。同社やソフトバンク、東芝が語る、ビジネスの未来を展望する。
Microsoft 365 Copilot、ついに“エージェント化” ExcelやWordで複雑なタスクを段階的に処理する新機能
Microsoftは、Microsoft 365 Copilotの新機能「Agent Mode」と「Office Agent」を発表した。ExcelやWordなどのOfficeアプリでAIと対話的に協働し、複雑な業務を段階的に処理・完成できる。
