講演抄録/キーワード |
講演名 |
2022-12-22 16:50
[ポスター講演]機械学習を用いた音声処理に向けたデータ拡張手法の研究 ○丸山 翼(東工大)・池上 努(産総研)・遠藤敏夫(東工大)・広渕崇宏(産総研) EA2022-68 |
抄録 |
(和) |
機械学習において,学習データに変換を加えてデータの数と多様性を強化し,過学習を抑制する手法にデータ拡張がある.人間の発話データに対しては従来,環境音を重畳するデータ拡張が用いられてきた.本研究ではこれと相補的な手法として,統計的声質変換で用いられる音響特徴量を利用したデータ拡張を提案する.音声認識タスクと話者照合タスクで提案手法と従来手法による学習の比較実験を行い,前者ではwav2vec2.0による実験で翻訳編集率22.8%の改善,後者では等価エラー率1.62%の改善を実現した. |
(英) |
In machine learning, data augmentation is a method to enhance the number and diversity of data by adding transformations to the training data to prevent overlearning. Traditionally, human speech data has been augmented by superimposing environmental sounds. As a complementary method, we propose data augmentation using acoustic features used in statistical voice conversion. We conducted experiments comparing training with the proposed and conventional methods for speech recognition and speaker verification. The results showed that the former improved the TER by 22.8% in wav2vec2.0 and the latter improved the EER by 1.62%. |
キーワード |
(和) |
データ拡張法 / 統計的声質変換 / 音声認識 / 話者照合 / / / / |
(英) |
Data augmentation / Statistical voice conversion / Speech recognition / Speaker verification / / / / |
文献情報 |
信学技報, vol. 122, no. 324, EA2022-68, pp. 42-48, 2022年12月. |
資料番号 |
EA2022-68 |
発行日 |
2022-12-15 (EA) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
EA2022-68 |