人間どうしの対話において、頷き・視線・表情などの非言語情報は言語情報同様に重要な役割を担っており、音声対話アバターにおいても、これらの非言語情報を適切に表出することが求められている。非言語情報の中でも、話を聞いていることを伝える際に頻繁に用いられる頷きに焦点を当て、これらのタイミングと種類をリアルタイムに予測するモデルを提案する。提案モデルは2名の対話者の音声を入力とする次発話者予測モデルであるVAP(Voice Activity Projection)モデルに基づいており、相槌予測とのマルチタスク学習や汎用的な対話データを用いた事前学習などを取り入れている。データセットとして、傾聴対話データに対して追加的に聞き手ジェスチャーを収録したのち、頷きを3種類に分類し、アノテーションを行ったものを使用した。実験では、多様な頷きを予測するタスクにおいて相槌予測とのマルチタスク学習の有効性が示された。また、提案モデルを音声対話アバターに組み込み、主観評価実験を行った結果、反応の自然さなどの点で従来手法を上回ることが示された。

| 氏名 | コース | 研究室 | 役職/学年 |
|---|---|---|---|
| 加藤 利梓 | 知能情報学コース | 音声メディア研究室 | 修士1回生 |
| 井上 昂治 | 知能情報学コース | 音声メディア研究室 | 助教 |
| ララ ディベッシュ | 知能情報学コース | 音声メディア研究室 | 特定准教授 |
| 河原達也 | 知能情報学コース | 音声メディア研究室 | 教授 |