講演抄録/キーワード |
講演名 |
2008-12-10 10:20
時系列マッチングを含む統計モデルを用いた継続長およびスペクトルの同時変換 ○油谷かおり・南角吉彦(名工大)・戸田智基(奈良先端大)・徳田恵一(名工大) NLC2008-37 SP2008-92 |
抄録 |
(和) |
本稿では時系列マッチングを含む統計モデルに基づいた継続長およびスペクトルの同時変換手法を提案する.これまで声質変換の主な手法としては,ガウス混合モデル(GMM) に基づくスペクトル変換法が用いられてきた.この手法では,元話者・目標話者間のフレームの対応を一対一と仮定しているため,発話速度を考慮したスペクトル変換を行うことができない.しかし,話者性は発話速度にも表れると考えられる.そこで本研究では継続長変換を行うため,時系列マッチングを含む統計モデル(DPGMM) を適用する.DPGMM は長さの異なる2 つの系列を直接表現するため,継続長およびスペクトルの同時変換が可能となる.提案法では,DPGMMの各混合要素に継続長モデルを付加し,非線形かつスペクトル情報に依存した継続長変換を行う. |
(英) |
This paper describes a simultaneous conversion technique of duration and spectrum based on a statistical model including time-sequence matching. The conventional GMM-based approach cannot perform spectral conversion taking account of speaking rates because it assumes one to one frame matching between source and target features. However, speaker characteristics may also appear in speaking rates. In order to perform duration conversion, we attach duration models to statistical models including time-sequence matching (DPGMM). Since DPGMM can represent two different length sequences directly, the conversion of spectrum and duration can be performed within an integrated framework. In the proposed technique, each mixture component of DPGMM has different duration transformation functions, therefore durations are converted nonlinearly and dependently on spectral information. In a subjective DMOS test, the proposed method is superior to the conventional method. |
キーワード |
(和) |
声質変換 / GMM / 継続長変換 / / / / / |
(英) |
Voice conversion / GMM / Duration conversion / / / / / |
文献情報 |
信学技報, vol. 108, no. 338, SP2008-92, pp. 79-84, 2008年12月. |
資料番号 |
SP2008-92 |
発行日 |
2008-12-02 (NLC, SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2008-37 SP2008-92 |