講演抄録/キーワード |
講演名 |
2012-06-14 11:00
強調音声合成のための局所韻律コンテキスト自動付与の検討 ○前野 悠・能勢 隆・小林隆夫(東工大)・井島勇祐・中嶋秀治・水野秀之・吉岡 理(NTT) SP2012-33 |
抄録 |
(和) |
HMM 音声合成において,多様なスタイルを伴う音声に現れる強調表現を合成音声に反映させるため,学 習データに対する強調コンテキストの自動ラベリング手法を提案する. 我々はこれまでに商品宣伝を想定して収録さ れた音声を対象とし,原音声と合成音声のアクセント句毎の基本周波数 (F0) の差分に着目した強調コンテキストのラ ベリング手法を提案した.しかし,この手法では強調/非強調を判定するための閾値をあらかじめ主観評価などによ り決定する必要があった.これに対し,本稿では学習データ全体の強調音声の F0 の性質を利用し,閾値を自動で決定 する手法を提案する.客観評価および主観評価実験から提案法の有効性を示す. |
(英) |
This paper describes automatic prosodic context labeling of training data for synthesizing expressive speech in HMM-based speech synthesis framework by focusing on emphasis expression. We have proposed unsuper- vised labeling technique with emphasis context using the property of the difference between original and generated F0 patterns. In this approach, there is a problem that the threshold which is used to judge whether a phrase is emphasized or not has to be pre-determined. To overcome this problem, we propose a technique for determining an optimal threshold automatically based on a behavior of F0 pattern in emphatic speech. Experimental results show that the proposed technique gives a similar result to the labeling obtained by subjectively and the emphasis expression is well reproduced in synthetic speech. |
キーワード |
(和) |
HMM音声合成 / スタイル音声合成 / 強調表現 / 韻律コンテキスト / 自動ラベリング / / / |
(英) |
HMM-based speech synthesis / expressive speech / emphasis expression / unsupervised labeling / / / / |
文献情報 |
信学技報, vol. 112, no. 81, SP2012-33, pp. 1-6, 2012年6月. |
資料番号 |
SP2012-33 |
発行日 |
2012-06-07 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2012-33 |