NECは7月17日、熟練者の過去の行動履歴データを「逆強化学習」で学習することで、その「意図」を意思決定モデルとして学習し、熟練者と同等の判断を、迅速かつ自律的に導き出せるAI技術を開発したと発表した。同技術を、放送局の広告スケジューリング業務に適用したところ、経験豊富な熟練者と同じレベルの意思決定を、10倍以上のスピードで実現できたという。

　逆強化学習とは、報酬を基に最適行動を導き出す強化学習にとは“逆”に、最適行動から報酬を推定する学習。

　新技術では、データ同士の関連性から規則性を自動で発見した上で、分析対象のデータに応じて参照する規則を切り替える「異種混合学習」を拡張。熟練者の行動履歴データから、複数の意思決定モデルと、それらの切り替えルールを学習する。さらに、熟練者が選ばない行動は「リスクがある」として避け、常に行っている行動は「守るべき制約」とみなして学習することで、安全で信頼性の高い判断と同等の意思決定が可能になるという。

　熟練者と非熟練者それぞれの行動履歴データからサンプリングすることで、意思決定モデルを評価できる「モデルフリー方式」を採用。従来の逆強化学習に必要だった、コストのかかる「状態遷移モデル」が不要で、学習環境の大幅な簡略化を可能にした。学習途中の意思決定モデル評価をシミュレータなどで実行する必要もなく、既存逆強化学習の100倍の効率で学習できるという。

　新技術は、営業活動やプラント運転など、RPAが適用できない複雑な意思決定が必要な領域や、自動運転・ロボット制御など、人の判断・動作を物理的に再現する領域への活用を想定。経験の浅い営業担当者に、活動指針を出す――といったことが可能になるという。

AI活用は検証から実用へ　NECが語る“筋のいい企画”の条件
AI活用を実用フェーズに進ませ、成果を得るにはどうすればいいのか。NECで企業のAI活用をサポートする本橋洋介氏が「脱PoC」をテーマに解説した。
NECが創薬事業に本格参入　AIで患者ごとの「がん治療ワクチン」開発
NECが創薬事業に本格参入した。AIを活用して患者ごとにがんワクチンを開発して治療を行うという。