講演抄録/キーワード |
講演名 |
2014-12-16 11:00
音声入力に基づく韻律制御機能を有するHMM音声合成システム ○西垣友理・高道慎之介・戸田智基・ニュービック グラム・サクリアニ サクティ・中村 哲(奈良先端大) SP2014-115 |
抄録 |
(和) |
音声合成を用いた創作活動の活発化により,目標とする特定話者の音声の合成処理において,ユーザの思い通りの音声を合成できるインターフェースの開発が望まれている.これに対して本報告では,高品質かつ表現力豊かな音声合成の実現を目指して,HMM音声合成において,通常のテキスト音声合成機能を保持しつつ,ユーザによる入力音声を用いて目標話者の合成音声の韻律を制御する手法を提案する.入力音声に対して,HMM状態アライメントを行うことで,入力音声の継続長を抽出し,それを目標話者用HMMに反映させることで,入力音声の継続長に対応した目標話者の合成音声を生成する.さらに,入力音声のF0 パターンを合成音声に反映させることで,入力音声のF0 パターンおよび継続長に対応した目標話者の合成音声を実現する.入力音声と合成音声間における韻律パラメータの不一致による自然性劣化を抑えるために,反映させる継続長の単位に関する検討,モデル適応処理を用いたアライメント用HMMの構築に関する検討,および,有声/ 無声情報に対応する補正処理に関する検討を行う.複数の入力話者を対象とした実験的評価結果から,提案法の有効性を示す. |
(英) |
As a creative activity using speech synthesis technologies has been grown rapidly, it is desired to develop an interface to synthesize speech of a specific target speaker as users want. In this report, we propose a prosody modification method using user's speech inputs in HMM-based speech synthesis system in order to achieve high-quality and expressive speech synthesis. The propose method allows users to guide prosody of synthetic speech of the target speaker by using their own voices while preserving original functions of the HMM-based speech synthesis system as a text-to-speech synthesis system. Both duration information of the input speech extracted by performing HMM state alignment and F0 patterns of the input speech are effectively used to control the duration and F0 patterns of synthetic speech of the target speaker. To alleviate the degradation of naturalness caused by prosodic mismatches between the input speech and the synthetic speech, we investigate an appropriate unit for
the HMM state alignment, model adaptation for building an HMM used for the alignment, and correction of unvoiced/voiced information. Experimental evaluations are conducted for multiple input speakers, which demonstrates the effectiveness of the proposed method. |
キーワード |
(和) |
HMM音声合成 / 韻律制御 / 継続長単位 / モデル適応 / 有声/無声情報 / / / |
(英) |
HMM-based speech synthesis / prosody modification / alignment unit / model adaptation / unvoiced/voiced information / / / |
文献情報 |
信学技報, vol. 114, no. 365, SP2014-115, pp. 81-86, 2014年12月. |
資料番号 |
SP2014-115 |
発行日 |
2014-12-08 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2014-115 |