ITmedia NEWS > 速報 >
ニュース
» 2019年07月17日 13時10分 公開

「熟練者と同レベルの意思決定ができる」AI、NECが開発 「逆強化学習」で「意図」を学習

NECは、熟練者の過去の行動履歴データを「逆強化学習」で学習することで、その「意図」を意思決定モデルとして学習し、熟練者と同等の判断を、迅速かつ自律的に導き出せるAI技術を開発したと発表した。同技術を、放送局の広告スケジューリング業務に適用したところ、経験豊富な熟練者と同じレベルの意思決定を、10倍以上のスピードで実現できたという。

[ITmedia]

 NECは7月17日、熟練者の過去の行動履歴データを「逆強化学習」で学習することで、その「意図」を意思決定モデルとして学習し、熟練者と同等の判断を、迅速かつ自律的に導き出せるAI技術を開発したと発表した。同技術を、放送局の広告スケジューリング業務に適用したところ、経験豊富な熟練者と同じレベルの意思決定を、10倍以上のスピードで実現できたという。

画像

 逆強化学習とは、報酬を基に最適行動を導き出す強化学習にとは“逆”に、最適行動から報酬を推定する学習。

 新技術では、データ同士の関連性から規則性を自動で発見した上で、分析対象のデータに応じて参照する規則を切り替える「異種混合学習」を拡張。熟練者の行動履歴データから、複数の意思決定モデルと、それらの切り替えルールを学習する。さらに、熟練者が選ばない行動は「リスクがある」として避け、常に行っている行動は「守るべき制約」とみなして学習することで、安全で信頼性の高い判断と同等の意思決定が可能になるという。

 熟練者と非熟練者それぞれの行動履歴データからサンプリングすることで、意思決定モデルを評価できる「モデルフリー方式」を採用。従来の逆強化学習に必要だった、コストのかかる「状態遷移モデル」が不要で、学習環境の大幅な簡略化を可能にした。学習途中の意思決定モデル評価をシミュレータなどで実行する必要もなく、既存逆強化学習の100倍の効率で学習できるという。

 新技術は、営業活動やプラント運転など、RPAが適用できない複雑な意思決定が必要な領域や、自動運転・ロボット制御など、人の判断・動作を物理的に再現する領域への活用を想定。経験の浅い営業担当者に、活動指針を出す――といったことが可能になるという。

Copyright © ITmedia, Inc. All Rights Reserved.