ヒューマノイドロボットの要である「二足歩行」にも最新のAI技術が活用されている。四つ足よりも重心が不安定な二足歩行の実現に、深層強化学習を用いた制御技術が活用されている。
深層強化学習は、AIが試行錯誤によって目的とするルールを獲得する技術といえる。2016年に当時の囲碁の世界チャンピオンであるイ・セドル氏を破ったAI「AlphaGo」に用いられた技術としても有名である。
囲碁のようなゲームは「相手に勝つこと」、二足歩行は「倒れないこと」というように、深層強化学習では何が成功で何が失敗かのルールを設定する。その上でAIは無数の選択肢から、できるだけ良いとされるものを選ぶように学習する。
サービスロボットが人に衝突せず、安全に目的地まで移動できるようになったならば、次の課題は行動計画、つまりは考えることである。配膳ロボットも人が指定された場所まで移動しているにすぎず、目的に応じて自ら“考えて”いるわけではない。この行動計画に有効なものが、生成AIである。以下の図は、サービスロボットが取るべき行動計画について、実際にGPT4-oに尋ねた結果である。
「のどが渇いた、何かない?」に応じる形で、「1.確認と応答」に始まる5つの行動を生成している。実際の制御には、何段もの技術的な壁があるが、もしこの通り行動できたらと考えてみてほしい。人が一つ一つ指示しないと何もできなかった赤子のようなロボットが、一気に自律的で知的なロボットへ進化したように感じるであろう。
ロボットの行動生成には、「世界モデル」と呼ばれる周辺環境を理解し、予測するための大量の知識が必要である。一般常識ともいえるこの知識は、人間社会で暮らすために必須の情報であり、人は成長の過程で獲得するものだ。GPT-4のような大規模言語モデルは、大量の文章や画像などから、私たちの人間社会に関する断片的な情報をつなぎ合わせ、おぼろげながら「原始的な世界モデル」を作り出している可能性が高い。
世界モデルは長年研究されてきたが、大量の常識をいくらデータ化したとしても、無限ともいえる情報を作り続けるのは難しく、解決にはまだ相当な時間がかかると思われていた。
このため、文章や画像などインターネットにある大量の情報から、無作為に学習したにすぎない大規模言語モデル(LLM)が、不完全ながらもロボットに有効な行動を生成できた点は画期的だったといえる。
“インバウン丼”と呼ばないで――1杯1万円超の海鮮丼が話題の豊洲「千客万来」、運営企業が漏らした本音
セルフレジで客が減る? 欧米で「セルフレジ撤去」の動き、日本はどう捉えるべきか
千葉のキッザニアっぽい施設「カンドゥー」 存続の危機から一転、過去最高の来場者数に どう立て直した?
ニコニコ障害で「仮」サイト好評 往年ネット民が“失って気付く”価値
「オーバーツーリズムは“悪化”している」 星野リゾート社長が感じた危機感Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR注目記事ランキング