お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2023-06-23 13:50
[ポスター講演]MS-Harmonic-Net++ vs SiFi-GAN: 基本周波数制御可能な高速ニューラル波形生成モデルの比較
清水聡太神戸大/NICT)・岡本拓磨NICT)・高島遼一神戸大)・大谷大和NICT)・滝口哲也神戸大)・戸田智基名大/NICT)・河井 恒NICTSP2023-5
抄録 (和) Harmonic-Net+はWORLD特徴量で動作する,基本周波数~(fo)および話速~(SR)制御可能な高速ニューラルボコーダとして提案されているが,WORLD特徴量抽出における計算時間が遅く,特徴量抽出を含めたリアルタイム合成を実現できない.これに対し,特徴量抽出を含む音声合成において,foと~SR制御可能な高速ニューラルボコーダであるHarmonic-Net++が提案されている.このモデルは入力がメルスペクトログラムであるWORLD特徴量推定ネットワークをHarmonic-Net+に導入したものである.さらに,Harmonic-Net++の合成速度を向上させるため,Multi-stream構造に基づく学習可能な高速アップサンプリング層を導入したMS-Harmonic-Net++も提案されている.本研究では,fo制御可能な高速ニューラル波形生成モデルである,MS-Harmonic-Net++と,Harmonic-Net+同様に,HiFi-GANに対して改良を行い,高品質かつCPUのみでもリアルタイム合成可能なモデルとして提案されているSiFi-GANの比較を行う. 
(英) Although Harmonic-Net+ has been proposed as a fundamental frequency (fo) and speech rate (SR) controllable fast neural vocoder with WORLD features, the computational time of WORLD feature extraction itself is slow, and Harmonic-Net+ cannot realize real-time inference when including feature extraction. Then, to realize fo and SR controllable fast neural vocoder including feature extraction, Harmonic-Net++ is proposed with WORLD feature prediction network from mel-spectrogram input. Furthermore, to accelerate the inference speed of Harmonic-Net++ and MS-Harmonic-Net++, which is proposed by introducing multi-stream-based trainable fast upsampling. In this study, we compare MS-Harmonic-Net++ and SiFi-GAN,which is proposed as a high-quality and real-time inference model on CPU by improving on HiFi-GAN as well as Harmonic-Net+, which are fast neural waveform generation models with fo control.
キーワード (和) 音声合成 / ニューラルボコーダ / 基本周波数制御 / 話速制御 / リアルタイム合成 / / /  
(英) speech synthesis / neural vocoder / fundamental frequency control / speech rate control / real-time inference / / /  
文献情報 信学技報, vol. 123, no. 88, SP2023-5, pp. 20-25, 2023年6月.
資料番号 SP2023-5 
発行日 2023-06-16 (SP) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード SP2023-5

研究会情報
研究会 SP IPSJ-MUS IPSJ-SLP  
開催期間 2023-06-23 - 2023-06-24 
開催地(和) 電気通信大学 
開催地(英)  
テーマ(和) 音学シンポジウム2023 
テーマ(英)  
講演論文情報の詳細
申込み研究会 SP 
会議コード 2023-06-SP-MUS-SLP 
本文の言語 日本語 
タイトル(和) MS-Harmonic-Net++ vs SiFi-GAN: 基本周波数制御可能な高速ニューラル波形生成モデルの比較 
サブタイトル(和)  
タイトル(英) MS-Harmonic-Net++ vs SiFi-GAN: Comparison of fundamental frequency controllable fast neural waveform generative models. 
サブタイトル(英)  
キーワード(1)(和/英) 音声合成 / speech synthesis  
キーワード(2)(和/英) ニューラルボコーダ / neural vocoder  
キーワード(3)(和/英) 基本周波数制御 / fundamental frequency control  
キーワード(4)(和/英) 話速制御 / speech rate control  
キーワード(5)(和/英) リアルタイム合成 / real-time inference  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 清水 聡太 / Sota Shimizu / シミズ ソウタ
第1著者 所属(和/英) 神戸大学/情報通信研究機構 (略称: 神戸大/NICT)
Kobe University/National Institute of Information and Communications Technology (略称: Kobe Univ./NICT)
第2著者 氏名(和/英/ヨミ) 岡本 拓磨 / Takuma Okamoto / オカモト タクマ
第2著者 所属(和/英) 情報通信研究機構 (略称: NICT)
National Institute of Information and Communications Technology (略称: NICT)
第3著者 氏名(和/英/ヨミ) 高島 遼一 / Ryoichi Takashima / タカシマ リョウイチ
第3著者 所属(和/英) 神戸大学 (略称: 神戸大)
Kobe University (略称: Kobe Univ.)
第4著者 氏名(和/英/ヨミ) 大谷 大和 / Yamato Ohtani / オオタニ ヤマト
第4著者 所属(和/英) 情報通信研究機構 (略称: NICT)
National Institute of Information and Communications Technology (略称: NICT)
第5著者 氏名(和/英/ヨミ) 滝口 哲也 / Tetsuya Takiguchi / タキグチ テツヤ
第5著者 所属(和/英) 神戸大学 (略称: 神戸大)
Kobe University (略称: Kobe Univ.)
第6著者 氏名(和/英/ヨミ) 戸田 智基 / Tomoki Toda / トダ トモキ
第6著者 所属(和/英) 名古屋大学/情報通信研究機構 (略称: 名大/NICT)
Nagoya University/National Institute of Information and Communications Technology (略称: Nagoya Univ./NICT)
第7著者 氏名(和/英/ヨミ) 河井 恒 / Hisashi Kawai / カワイ ヒサシ
第7著者 所属(和/英) 情報通信研究機構 (略称: NICT)
National Institute of Information and Communications Technology (略称: NICT)
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2023-06-23 13:50:00 
発表時間 140分 
申込先研究会 SP 
資料番号 SP2023-5 
巻番号(vol) vol.123 
号番号(no) no.88 
ページ範囲 pp.20-25 
ページ数
発行日 2023-06-16 (SP) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会