講演抄録/キーワード |
講演名 |
2014-05-25 11:30
[研究紹介]音声F0パターン生成過程の確率モデルによるテキストからの韻律生成 ○門脇健人・石原達馬・北条伸克(東大)・亀岡弘和(東大/NTT) SP2014-28 |
抄録 |
(和) |
本研究では,テキスト音声合成を目的としてテキストからF0パターンを生成する問題を扱う.テキスト音声合成において隠れマルコフモデル(Hidden Markov Model; HMM)に基づく統計的アプローチが成功を収めているが,従来の HMM 音声合成手法によって生成されるF0パターンのパラメータは過剰に平滑化される傾向にあり,必ずしも肉声に近いF0パターンが生成されるとは限らなかった.それに対して,我々は自然なイントネーションを実現する為に,藤崎らによるF0パターンの生成過程モデル(藤崎モデル)に着目した. 我々の研究室では既に,藤崎モデルの確率モデル化に成功しており,本研究では当該モデルをコンテキスト依存型へと拡張し,モデル学習の為のアルゴリズムを導出した. |
(英) |
This paper deals with the problem of generating the fundamental frequency (F0) contour of speech from a text input for text-to-speech synthesis. We have previously introduced a statistical model describing the generating process of speech F0 contours, based on the discrete-time version of the Fujisaki model. One remarkable feature of this model is that it has allowed us to derive an efficient algorithm based on powerful statistical methods for estimating the Fujisaki-model parameters from raw F0 contours. To associate a sequence of the Fujisaki-model parameters with a text input based on statistical learning, this paper proposes extending this model to a context-dependent one. we further propose a parameter training algorithm for the present model based on a decision tree-based context clustering. |
キーワード |
(和) |
テキスト音声合成 / 韻律生成 / 藤崎モデル / 隠れマルコフモデル / コンテキストクラスタリング / / / |
(英) |
Text-to-speech / Speech prosody generation / Fujisaki model / Hidden markov model / Context clustering / / / |
文献情報 |
信学技報, vol. 114, no. 52, SP2014-28, pp. 309-314, 2014年5月. |
資料番号 |
SP2014-28 |
発行日 |
2014-05-17 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2014-28 |