構造評価関数を用いた構造的表象からの音声合成系の高精度化

齋藤,大輔; 喬,宇; 峯松,信明; 広瀬,啓吉

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2009-11-27 09:30 構造評価関数を用いた構造的表象からの音声合成系の高精度化 ○齋藤大輔・喬　宇・峯松信明・広瀬啓吉（東大） SP2009-70
抄録	（和）	音声は年齢，性別，声道長や音響機器などの非言語的特徴によって変形し，多様性に富んでいる．筆者らはこれらの非言語的な音響変形におよそ不変な音声の構造的・抽象的表象を提案してきた．この表象は音声の動きのみに着眼した物理表象である．先行研究において，音声の構造的表象に基づく音声合成の枠組みを提案し，その基礎的検討を行ってきた．提案する枠組みでは音声発話を発話内容（語形）と発話者の身体性に分離して捉え，生成に際しては話者不変の語形に発話者の身体性を付与する事で合成音声を得る．これは，幼児の音声模倣に対応する音声合成のモデルといえる．本稿では提案する枠組みと幼児の音声模倣の対応について考察し，加えて構造評価関数とそれに基づく音響事象の推定法（音響空間における定位法）を導入する事で，従来手法における幾何学的アプローチと比べて，技術的な改善を試みた．連続音声を対象とした音声合成実験を行い，主観評価実験の結果から，提案手法において高次の特徴量分割手法を導入した場合における品質の向上を確認した．
	（英）	Speech acoustics vary due to differences in age, gender, vocal tract length, microphone, and so on. The authors recently proposed a structural and abstract representation of speech, where these variations were effectively removed. This representation captures only dynamics of speech. In our previous study, using this abstract representation, a new framework of speech synthesis was proposed and some fundamental investigations were carried out. In this new framework, an utterance is modeled using two separate attributes; one corresponding to what is known as speech Gestalt, which is a speaker-invariant speech form, and the other to the embodiment seen in vocal tubes, which characterizes speaker differences. Acoustic signals are generated by using the Gestalt as constraint conditions and the vocal tube embodiment as initial conditions. In other words, the Gestalt can be acoustically realized only when the speaker's embodiment is provided. This new framework can be regarded as an implementation of infants' vocal imitation. In this study, by following the initial investigations, we improve accuracy and efficiency in acoustic realization of the Gestalt based on a structural cost function. Experiments of generating continuous utterances of Japanese vowels show the validity of the proposed method.
キーワード	（和）	構造的表象 / 話者不変性 / 音声模倣 / 言語獲得 / 構造評価関数 / / /
	（英）	structural represenation / speaker invariance / vocal imitation / language acquisition / a structural cost function / / /
文献情報		信学技報, vol. 109, no. 308, SP2009-70, pp. 49-54, 2009年11月.
資料番号		SP2009-70
発行日		2009-11-19 (SP)
ISSN		Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		SP2009-70

研究会情報
研究会	SP
開催期間	2009-11-26 - 2009-11-27
開催地（和）	静岡大学
開催地（英）	Shizuoka University
テーマ（和）	言語獲得・学習, 合成，生成，韻律，一般
テーマ（英）	language acquisition, language learning, speech synthesis, speech production, prosody, etc.
講演論文情報の詳細
申込み研究会	SP
会議コード	2009-11-SP
本文の言語	日本語
タイトル（和）	構造評価関数を用いた構造的表象からの音声合成系の高精度化
サブタイトル（和）
タイトル（英）	Improvement of structure to speech conversion based on a structural cost function
サブタイトル（英）
キーワード(1)（和/英）	構造的表象 / structural represenation
キーワード(2)（和/英）	話者不変性 / speaker invariance
キーワード(3)（和/英）	音声模倣 / vocal imitation
キーワード(4)（和/英）	言語獲得 / language acquisition
キーワード(5)（和/英）	構造評価関数 / a structural cost function
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	齋藤大輔 / Daisuke Saito / サイトウダイスケ
第1著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： Univ. of Tokyo)
第2著者氏名（和/英/ヨミ）	喬宇 / Yu Qiao / チャオユイ
第2著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： Univ. of Tokyo)
第3著者氏名（和/英/ヨミ）	峯松信明 / Nobuaki Minematsu / ミネマツノブアキ
第3著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： Univ. of Tokyo)
第4著者氏名（和/英/ヨミ）	広瀬啓吉 / Keikichi Hirose / ヒロセケイキチ
第4著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： Univ. of Tokyo)
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2009-11-27 09:30:00
発表時間	30分
申込先研究会	SP
資料番号	SP2009-70
巻番号（vol）	vol.109
号番号（no）	no.308
ページ範囲	pp.49-54
ページ数	6
発行日	2009-11-19 (SP)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会