逆最適制御とは、コスト関数に対して最適な振る舞いをするシステムの振る舞いを基に、システムが活用するコスト関数を推定する問題である。コスト関数とその時間積分である価値関数の関係式であるハミルトン-ヤコビ-ベルマン方程式は、システムの行動が最適であるための必要条件を提供するものであり、逆最適制御に用いることができる。しかし、ハミルトン-ヤコビ-ベルマン方程式の活用のみでは逆最適制御問題を解くのに不十分な情報しか与えることができない。
この原因として、価値関数とコスト関数の推定問題は不良設定であることが挙げられる。すなわち、与えられたシステムの振る舞いは、様々な価値関数とコスト関数に対して最適であるため、逆最適制御によりこれらの関数を一意に決定することができないという課題がある。
本研究では、価値関数の不良設定性を改善するのに有効な、価値関数についての三角不等式制約を提案し、それを用いた新しい逆最適制御手法を提案する。いくつかの逆最適制御問題や時間依存の制御課題の模倣学習を通して、提案する逆最適制御手法が既存の逆最適制御手法よりも精度良くコスト関数を推定できることを示した。また、提案手法が2リンクのマニピュレータの制御模倣にも適用できることを示すことで、提案手法の実問題への適用可能性を示した。
本研究は理論研究であるが、最終的な研究目標は産業用ロボットの活用を容易にさせることである。
多くの産業用ロボットはシークエンス制御により実現されているため、個々の事例で人間が動作を直接プログラムする必要がある。
一方、本研究の研究対象である逆最適制御が発展すれば、熟練者の制御例を示すだけで制御の模倣が可能になる。
これにより、タスクごとに動作をプログラムする作業が不要になり、産業用ロボットの活用がより容易になることが期待できる。
氏名 | コース | 研究室 | 役職/学年 |
---|---|---|---|
三橋 晟 | システム科学コース | 論理生命学研究室 | 博士1回生 |