人を以て鑑と為す逆強化学習
Inverse Reinforcement Learning from Motivated Failure
概要
逆強化学習は、熟練者のデータを再現する行動戦略を抽出する技術である。この技術は、後継者不足が問題となっている職人技の継承、生物の行動戦略に対するメカニズムの解明など、近年分野を横断して注目を集めている。
しかしながら、タスクの難易度が上がれば上がるほど、熟練者でもタスクに失敗することが多くなり、そもそも成功しているデータを集めることが難しい。
そこで我々のグループでは、タスクに失敗しているデータに着目した。本研究では、熟練者が失敗していたとしても、熟練者の目論見の実現が可能な逆強化学習のモデルを提案する。これにより、失敗しているデータからも熟練者の行動戦略を抽出することが可能となることを示す。
産業界への展開例・適用分野
知能ロボティクス分野:ロボットへの難易度の高い職人技の継承。
研究者
氏名 | 専攻 | 研究室 | 役職/学年 |
---|---|---|---|
炭谷 翔悟 | システム科学専攻 | 論理生命学研究室 | 博士1回生 |
久保 顕大 | システム科学専攻 | 論理生命学研究室 | 博士1回生 |