多指ロボットハンドは様々な形状の物体を操作できる柔軟性を備えており,強化学習に基づく制御の分野で広く研究されてきた.しかし,その高次元な行動空間によって学習効率は低下し大量のデータが必要となる.このような課題に対処するため先行研究では次元削減による学習効率向上が図られてきたが,実世界における多様な物体形状への適用には依然として多くの試行錯誤が必要となる.
そこで,本研究では,複数物体のマニピュレーションにおける行動軌道全体を低次元潜在空間に埋め込み,効率的な探索と未知の物体形状への迅速な適応を可能にするフレームワークを提案した.3指ロボットハンドを用いた実世界のバルブ回転タスクにおいて,まずシミュレーション環境で収集した強化学習方策の行動系列に対し変分自己符号化器を学習し,実機では潜在空間をベイズ最適化によって探索する手法を採用した.実験の結果,本手法は未知形状の物体に対しても,わずか約7分の試行で操作を可能にすることを示した.

| 氏名 | コース | 研究室 | 役職/学年 |
|---|---|---|---|
| 古巻鉄平 | システム科学コース | 学習機械分野 | 博士2回生 |
| 八木聡明 | システム科学コース | 学習機械分野 | 助教 |
| 山森聡 | システム科学コース | 学習機械分野 | 特定助教 |
| 森本淳 | システム科学コース | 学習機械分野 | 教授 |