講演抄録/キーワード |
講演名 |
2019-06-13 13:30
DNN音声合成におけるスタイル付与モデル学習法の検討 ○蛭田宜樹(東工大)・郡山知樹(東大)・太刀岡勇気(デンソーアイティーラボラトリ)・小林隆夫(東工大) SP2019-1 |
抄録 |
(和) |
本報告では DNN 音声合成におけるスタイル付与手法について検討している.スタイル付与とは,音声を 合成したい話者(目標話者)のモデル学習用音声として読上げ音声のみが与えられた場合に,その話者の表現豊かな 音声を合成する技術である.本報告では目標話者の読上げ音声が少量しか与えられていない状況を想定し,i-vector を DNN の入力として用いる二つのモデルについて評価検討している.提案手法の基本的な枠組みは従来手法と同様, 複数話者の多様な表現を持つ音声を用いて話者性とスタイルを制御可能なモデルを構築することであり,提案法では i-vector を合成音声の話者性を制御するための DNN の入力として用いている.提案モデルの効果を確認するため客観 及び主観評価実験を行い,提案スタイル付与手法と one-hot 表現の話者コードを DNN の入力として用いる従来モデ ルとの比較評価結果を示す. |
(英) |
This paper investigates style transplantation modeling techniques for DNN-based statistical parametric speech synthesis. The problem treated here is to generate expressive speech of a given target speaker with only using a small amount of his/her reading style speech data. For this purpose, we propose two models, which utilize i-vector as an input to DNN. The basic idea of the proposed modeling framework is to construct an acoustic model which can control voice characteristics and emotional expression and/or speaking style using multi speaker’s expressive speech data. In the proposed framework, the i-vector is used to control voice characteristics of the synthetic speech. Through objective and subjective evaluation experiments we compare the performance of the proposed style trans- plantation modeling techniques with the conventional ones in which a speaker code represented by one-hot vector is used as an input to DNN. |
キーワード |
(和) |
DNN音声合成 / スタイル付与 / i-vector / / / / / |
(英) |
DNN-based speech synthesis / style transplant / i-vector / / / / / |
文献情報 |
信学技報, vol. 119, no. 80, SP2019-1, pp. 1-6, 2019年6月. |
資料番号 |
SP2019-1 |
発行日 |
2019-06-06 (SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2019-1 |