本稿では,音響音楽信号からドラムのオンセット時刻をテイタム単位で推定する手法を述べる.自動ドラム採譜では,フレーム単位で設計された深層ニューラルネットワーク (deep neural network; DNN) により,スペクトログラムを入力としてドラムのオンセット時刻を出力する手法が盛んに研究されてきたが,記号単位でドラム譜の推定を行う研究はまだ少ない.フレーム単位の入力からテイタム単位の出力を行う機構 (採譜モデル) として,エンコーダ・デコーダモデルがある.しかし,DNNの学習に用いるペアデータの量が限られているために,採譜モデルが音楽的に不自然なドラムパターンを生成してしまうという問題点が残されている.このような背景から,我々はフレーム単位の入力特徴量からテイタム単位のドラム譜を推定する採譜モデルを設計する.さらに,採譜モデルの推定結果を音楽的に妥当なパターンに誘導するため,大規模ドラム譜データを用いて学習した言語モデルによる評価値を,採譜モデルの学習時に正則化項として組み込む手法を提案する.このとき,採譜モデルに自己注意機構を導入し,言語モデルにMasked language model (MLM) を利用することで,双方向の文脈から楽曲の長期的な構造を学習することができる.標準データセットを用いた実験により,提案法の効果を示す.
本提案法を用いて自動でドラム採譜を行うシステムを構築することで,創作者支援や耳コピの補助などの応用ができる。加えて,ドラムがポピュラー音楽の構造を支える基盤であることから,本提案手法を足がかりとして,採譜対象を複数楽器に拡張させることや採譜結果を音楽構造解析に応用させることが可能になると考えられる。さらに,本手法で提案した音楽言語モデルを生成モデルとしてさらに洗練させることで,音楽の認識・生成を融合させた作曲支援ツールの作成が可能になると考えられる。
氏名 | 専攻 | 研究室 | 役職/学年 |
---|---|---|---|
石塚崚斗 | 知能情報学専攻 | 音声メディア研究室 | 修士2回生 |