人間の行動を効果的にモデル化するには、動作の持つ構成性を捉えた身体運動表現が不可欠である。本研究では、最小単位の関節の動きを表す Action Atom と、それらの時間的な組み合わせから形成され、異なる行動間で共通する身体運動を表す Action Motif からなる階層的な特徴量表現を提案する。これらの表現を自己教師のみで学習するため、階層的に特徴量表現を扱う深層学習モデル A4Mer を導入する。A4Merは 3 次元姿勢列を可変長のセグメントに分割し、各セグメントを単一の特徴量として表現する。この特徴量を、Action Atom からボトムアップに構成していくことで、異なる行動間で再利用される、意味を持つ身体運動を捉えたパターン、すなわち Action Motif が自然に湧き上がる。さらに本研究では、被験者が室内で多様な日常動作を行う様子を複数台のカメラで撮影し、各時刻の 3 次元姿勢を付与した大規模データセット Action Motif Dataset (AMD) も構築する。足元が家具で遮蔽されやすい室内環境でも頑健に足の位置を取得するため、足に小型カメラを装着し、天井や机裏にマーカーを貼付する新たな撮影手法を提案する。実験の結果、AMD で学習した A4Mer は意味的に解釈可能な Action Atom 及び Action Motif を抽出し、得られた特徴量表現は、動作認識・予測・生成といった動作理解を必要とする多様なタスクにおいて有効性を示した。

人間の動作系列を意味的なまとまりごとに表現した特徴量は、ある人物が行っている動作を分類する「動作認識」や、数秒後に何を行っているかを予測する「動作予測」といった、動作の意味理解を必要とする下流タスクに直接応用できる。これらのタスクは、人に代わって子どもやお年寄りを見守るシステムを構築する上での基盤となる。作成したデータセットは、50人の幅広い年代の被験者が「掃除機をかける」「洗濯物を干す」などの多様な日常動作を行う様子を撮影した動画と、各時刻の姿勢データから構成される。このような特性を備えた大規模データセットは他になく、動作予測による身体の不調検出、姿勢推定に基づくジェスチャー理解、ゲームキャラクターの動作生成など、医療介護分野、ロボティクス、エンタメといった幅広い産業分野での応用が期待される。
| 氏名 | コース | 研究室 | 役職/学年 |
|---|---|---|---|
| Genki Kinoshita | 知能情報学コース | 西野研究室 | 博士2回生 |
| Shu Nakamura | 知能情報学コース | 西野研究室 | 博士2回生 |
| Ryo Kawahara | 知能情報学コース | 西野研究室 | 助教 |
| Shohei Nobuhara | その他の専攻・大学 | 京都工芸繊維大学 コンピュータビジョン研究室 | 教授 |
| Yasutomo Kawanishi | その他の専攻・大学 | ガーディアンロボットプロジェクト 感覚データ認識研究チーム | 教授 |
| Ko Nishino | 知能情報学コース | 西野研究室 | 教授 |