アイヌ民族は独自の言語(アイヌ語)を用いて文化を口頭で伝承してきたが、アイヌ語は母語話者の数が減り消滅の危機に瀕している。これに対し、口頭伝承を録音・記録することでアイヌ文化を保存する試みが続けられている。しかし、これらのデータは膨大な量に及び、アーカイブ化には多大な労力がかかるため、その多くが未整備のままである。そこで我々は、アーカイブ化のAIによる自動化を目指して研究を進めている。
本研究では、アイヌ民族博物館と平取町立二風谷アイヌ文化博物館から提供いただいた計10名・約40時間の民話(ウエペケレ)の整備済み音声データを元に、音声認識の単位・構成・学習法について様々な検討を行った。その結果、音節単位のEnd-to-Endモデルにおいて、94%の音素認識率・80%の単語認識率が実現できることを確認した。
また、音声認識結果を元に音声とテキストの時間同期を取ることに成功した。1時間のアイヌ語資料の時間同期を取るためには人手で約1日を要していたとされるが、これをほぼ自動化できたことになる。
さらに我々は、10時間以上の発話を持つアイヌ語話者について、音声合成モデルの構築を行った。合成音のクオリティに関しては専門家からも一定の評価を得ており、音声の存在しないアイヌ語資料の音声復元や、教材の手本音声の作成などへの活用が期待される。
音声の自動書き起こし・音声とテキストの自動同期・音声の自動読み上げ
氏名 | 専攻 | 研究室 | 役職/学年 |
---|---|---|---|
松浦孝平 | 知能情報学専攻 | 音声メディア研究室 | 修士2回生 |
三村正人 | 知能情報学専攻 | 音声メディア研究室 | 研究員 |
坂井信輔 | 知能情報学専攻 | 音声メディア研究室 | 研究員 |
河原達也 | 知能情報学専攻 | 音声メディア研究室 | 教授 |
https://www.kyoto-u.ac.jp/ja/research/research_results/2020/201012_2.html