講演抄録/キーワード |
講演名 |
2023-06-23 13:50
[ポスター講演]MS-Harmonic-Net++ vs SiFi-GAN: 基本周波数制御可能な高速ニューラル波形生成モデルの比較 ○清水聡太(神戸大/NICT)・岡本拓磨(NICT)・高島遼一(神戸大)・大谷大和(NICT)・滝口哲也(神戸大)・戸田智基(名大/NICT)・河井 恒(NICT) SP2023-5 |
抄録 |
(和) |
Harmonic-Net+はWORLD特徴量で動作する,基本周波数~(fo)および話速~(SR)制御可能な高速ニューラルボコーダとして提案されているが,WORLD特徴量抽出における計算時間が遅く,特徴量抽出を含めたリアルタイム合成を実現できない.これに対し,特徴量抽出を含む音声合成において,foと~SR制御可能な高速ニューラルボコーダであるHarmonic-Net++が提案されている.このモデルは入力がメルスペクトログラムであるWORLD特徴量推定ネットワークをHarmonic-Net+に導入したものである.さらに,Harmonic-Net++の合成速度を向上させるため,Multi-stream構造に基づく学習可能な高速アップサンプリング層を導入したMS-Harmonic-Net++も提案されている.本研究では,fo制御可能な高速ニューラル波形生成モデルである,MS-Harmonic-Net++と,Harmonic-Net+同様に,HiFi-GANに対して改良を行い,高品質かつCPUのみでもリアルタイム合成可能なモデルとして提案されているSiFi-GANの比較を行う. |
(英) |
Although Harmonic-Net+ has been proposed as a fundamental frequency (fo) and speech rate (SR) controllable fast neural vocoder with WORLD features, the computational time of WORLD feature extraction itself is slow, and Harmonic-Net+ cannot realize real-time inference when including feature extraction. Then, to realize fo and SR controllable fast neural vocoder including feature extraction, Harmonic-Net++ is proposed with WORLD feature prediction network from mel-spectrogram input. Furthermore, to accelerate the inference speed of Harmonic-Net++ and MS-Harmonic-Net++, which is proposed by introducing multi-stream-based trainable fast upsampling. In this study, we compare MS-Harmonic-Net++ and SiFi-GAN,which is proposed as a high-quality and real-time inference model on CPU by improving on HiFi-GAN as well as Harmonic-Net+, which are fast neural waveform generation models with fo control. |
キーワード |
(和) |
音声合成 / ニューラルボコーダ / 基本周波数制御 / 話速制御 / リアルタイム合成 / / / |
(英) |
speech synthesis / neural vocoder / fundamental frequency control / speech rate control / real-time inference / / / |
文献情報 |
信学技報, vol. 123, no. 88, SP2023-5, pp. 20-25, 2023年6月. |
資料番号 |
SP2023-5 |
発行日 |
2023-06-16 (SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2023-5 |