今回Laboro.AIでは、ビルの揺れをシミュレートする環境を作り、どのように重りを動かしたら揺れを早期に打ち消せるかを、深層強化学習を使って学ばせた。
「囲碁では、AlphaGoに初めはランダムに打たせて、たまたま勝ちにつながる良い手を打ったときは、そういう行動を強調するような信号を与え、負けたときは抑制するような信号を与え、経験を積んで最適な行動を学んでいく。同じように、ビルの揺れをシミュレートする環境を作って、初めはランダムに重りを動かす。より揺れを抑えられたらプラスの報酬シグナルを与えて、揺れが大きくなってしまったらマイナスの報酬を与えて学習させる」(椎橋氏)
この学習を約2万回、シミュレーション環境で行ったところ、学習曲線が最適化され、1秒ほどで揺れを抑える動きを習得した。
この学習結果を使い、実際の橋を使った環境で重りの動きを制御させたところ。従来の数式に基づいたアルゴリズムで重りを制御するよりも、揺れを抑えることに成功した。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PRアクセスランキング