講演抄録/キーワード |
講演名 |
2020-03-02 09:20
複数話者WaveNetボコーダを用いたニューラル話速変換の試み ○岡本拓磨(NICT)・松原圭亮(神戸大/NICT)・戸田智基(名大/NICT)・志賀芳則・河井 恒(NICT) EA2019-101 SIP2019-103 SP2019-50 |
抄録 |
(和) |
音の高さを変えずに音声を伸縮する話速変換技術は,従来 WSOLA や STRIGHT ボコーダ等の信号処理 により実現されたきたが,特に時間を引き伸ばす方向については音質が劣化してしまう問題がある.そこで本稿では, 近年テキスト音声合成や声質変換において高品質な音声を合成可能であるニューラルボコーダを用いた話速変換につ いての検討を行う.初期検討として,日本語複数話者公開音声コーパス JVS を用いて複数話者 WaveNet ボコーダを 学習し,音響特徴量をリサンプリングにより時間伸縮させることにより話速変換を実現する.学習に用いていない日 本人女性話者の音声を用いた聴取実験により,提案法を WSOLA および STRAIGHT と比較する.実験結果より,提 案法の方が高品質な話速変換音声を合成可能であることを示す. |
(英) |
Speech rate conversion technology, which can expand or compress speech waveforms without changing pitch of sound, is conventionally realized by signal processing-based methods such as WSOLA and STRAIGHT vocoder. However, the synthesis quality of speech waveforms expanded by these methods is sometimes degraded. To realize high-quality speech rate conversion, this paper investigates neural speech rate conversion using neural vocoders which can synthesize high-fidelity speech waveforms in text-to-speech and voice conversion. As an initial investigation, multi-speaker WaveNet vocoder is trained using JVS corpus for Japanese and neural speech rate con- version is realized by expanding or compressing input acoustic features in inference. The proposed neural speech rate conversion with multi-speaker WaveNet vocoder is compared with the conventional WSOLA and STRAIGHT vocoder in experiments using Japanese female speech samples not included in the training data. The results of exper- iments indicate that the proposed approach can realize higher-quality speech rate conversion than the conventional methods. |
キーワード |
(和) |
ニューラル話速変換 / WSOLA / ニューラルボコーダ / 複数話者 WaveNet ボコーダ / リサンプリング / / / |
(英) |
Neural speech rate conversion / WSOLA / Neural vocoder / Multi-speaker WaveNet vocoder / Resampling / / / |
文献情報 |
信学技報, vol. 119, no. 441, SP2019-50, pp. 1-6, 2020年3月. |
資料番号 |
SP2019-50 |
発行日 |
2020-02-24 (EA, SIP, SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
EA2019-101 SIP2019-103 SP2019-50 |
|