講演抄録/キーワード |
講演名 |
2009-06-25 14:30
F0パターン生成モデルのための数量化I類の平均値置換による話者適応法の検討 ○神山歩相名・篠崎隆宏(東工大)・岩野公司(東京都市大)・古井貞煕(東工大) SP2009-38 |
抄録 |
(和) |
本稿では,数量化I類による$F_0$パターン生成モデルの話者適応手法を提案する.本手法では,複数の話者による大量の音声を用いて,日本語(標準語)として自然な$F_0$パターンを学習し,少量の話者依存音声データを用いて,特定話者に合わせて平均値を置換することで,自然性が高くかつ個人に適応したモデルを作成する.この手法によって求めたモデルについて,客観評価実験を行ったところ,5文程度で話者適応が可能であることが確認できた.また,主観評価実験を行ったところ,450文で学習したモデルによる合成音と50文で適応したモデルの合成音に,ほぼ同程度の自然性が認められた.これより,適応手法が自然性に優れた話者適応法であることが確認された. |
(英) |
This paper proposes a new speaker adaptation method for the fundamental frequency ($F_0$) contour generation models based on the Quantification Theory (Type I). In this method, natural $F_0$ contour producing models for standard Japanese are trained using a large amount of speech data from many speakers, and natural as well as speaker-specific $F_0$ contours are generated by adapting mean $F_0$ values using a small amount of speech data from a specific speaker. Objective evaluation results using the models made by the proposed method confirm that around five sentences are enough for speaker adaptation. Subjective evaluation results confirm that naturalness of the synthesized speech using models adapted by 50 sentences is almost equivalent to that of the synthesized speech using models trained by 450 sentences for a specific speaker. These results indicate that the proposed adaptation method can produce highly natural synthesized speech. |
キーワード |
(和) |
HMM音声合成 / 数量化I類 / F0パターン / 韻律制御 / 話者適応 / / / |
(英) |
HMM-based Speech Synthesis / Quantification Theory (Type I) / F0 Contour Generation / Prosody Control / Speaker Adaptation / / / |
文献情報 |
信学技報, vol. 109, no. 99, SP2009-38, pp. 87-92, 2009年6月. |
資料番号 |
SP2009-38 |
発行日 |
2009-06-17 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2009-38 |