CRNN-HSMMハイブリッドモデルに基づく歌声採譜
Audio-to-Score Singing Transcription Based on a CRNN-HSMM Hybrid Model

概要

歌声採譜は音楽音響信号から歌声が担う主旋律の楽譜を推定する問題であるが,歌声の音高軌跡は変動が大きいため単純な方法では推定結果に多くの誤りが生じる.そこで本研究では,言語モデルを用いて楽譜の妥当性を評価し,音響モデルを用いて複雑な音楽音響信号の構造を柔軟に表すことによって,高精度の歌声採譜手法を実現する.具体的には,言語モデルと音響モデルがそれぞれ音楽知識に基づく音符の生成過程と音符に基づく音楽音響信号の生成過程を表現する.比較実験よって,提案法が既存手法よりも採譜精度が高いことおよび言語モデルと音響モデルの統合が採譜精度の向上に効果的であることを示した.

産業界への展開例・適用分野

- ユーザーの所有する楽曲の楽譜を提供するシステム
- 種々の音楽アプリケーション内部に組み込み可能な楽曲解析システム

研究者

氏名 専攻 研究室 役職/学年
錦見 亮 知能情報学専攻 音声メディア 博士3回生