講演抄録/キーワード |
講演名 |
2020-03-02 13:00
DNNに基づく話し言葉音声合成における追加コンテキストの効果 ○山下優樹・郡山知樹・齋藤佑樹・高道慎之介(東大)・井島勇祐・増村 亮(NTT)・猿渡 洋(東大) EA2019-112 SIP2019-114 SP2019-61 |
抄録 |
(和) |
ディープニューラルネットワーク(DNN)に基づく音声合成では, パラ言語, 非言語情報を追加することで, 読み上げ音声よりも自発性の高い音声を再現できる. 本稿では,日本語話し言葉コーパス(CSJ)に付与されている豊富なアノテーションを利用して, DNNに基づく話し言葉音声合成におけるパラ言語的, 非言語的特徴量の効果を評価する. 実験では, パラ言語的情報を付加することで, より高い再現性で話し言葉音声を合成できることを示す. |
(英) |
In DNN-based speech synthesis, contexts, which are input features of DNN, can be used not only for the representation of linguistic information but also for that of para- and non- linguistic information. Although spontaneous speech synthesis requires the use of various contexts to express the diversity of prosody in spontaneous speech, it is not clear what features are important. In this study, we utilize the rich tags annotated in Corpus of Spontaneous Japanese (CSJ), and use them as the extended contexts. Experimental evaluation results show that both frequently- and infrequently- observed tags are effective for synthesizing spontaneous speech. |
キーワード |
(和) |
音声合成 / コンテキスト / 話し言葉音声 / アノテーション / ディープニューラルネットワーク / / / |
(英) |
speech synthesis / context / spontaneous speech / annotation / deep neural network / / / |
文献情報 |
信学技報, vol. 119, no. 441, SP2019-61, pp. 65-70, 2020年3月. |
資料番号 |
SP2019-61 |
発行日 |
2020-02-24 (EA, SIP, SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
EA2019-112 SIP2019-114 SP2019-61 |
|