講演抄録/キーワード |
講演名 |
0000-00-00 00:00
構造的表象からの音声生成に関する基礎的検討 ○齋藤大輔・朝川 智・峯松信明・広瀬啓吉(東大) SP2007-80 |
抄録 |
(和) |
音声は年齢,性別,声道長や音響機器などの非言語的特徴によって不可避に歪む.筆者らはこれまでにこれらの非言語性歪みに不変な音声の構造的・抽象的表象を提案してきた.本研究では音声の構造的表象に基づく音声合成の枠組みについて提案する.
提案する枠組みでは発話全体の語形(語ゲシュタルトともよばれる)を考え,それに対して身体特性,収録機器の伝送特性を与える事で初めて,聞き手が聴取する音響信号が生成される.この枠組みは,幼児の音声模倣のモデルとして解釈可能である.
本報では提案する枠組みの基礎的検討として,構造的表象からの音声生成問題を制約条件下でのケプストラム空間の探索問題として定式化し,音声合成実験を行った.
結果として一定の音韻性を保ち,構造抽出時の話者性ではなく,合成対象の話者性を持った音声を得ることができた. |
(英) |
Speech acoustics vary due to differences in age, gender, vocal tract length, microphone, and so on. The authors recently have proposed a structural and abstract representation of speech, where these variations were effectively removed. In this study, a framework of speech synthesis based on this structural representation of speech is proposed. In the proposed framework, a system needs a ``speech gestalt'' of one utterance, properties of vocal tract length of speaker and properties of transmission of microphone. Using these information, acoustic signals to which hearers listen are generated. This framework can be regarded as a model of vocal imitation of infants. For a fundamental consideration of this framework, the authors considered this framework as a problem of searching cepstrum space for the solutions under some constraints in this report. As results of experiments, speech samples which have proper phonological characteristics were synthesized. |
キーワード |
(和) |
構造的表象 / 話者不変 / 音声模倣 / 言語獲得 / 解探索 / / / |
(英) |
structural representation of speech / speaker invariant / vocal imitation / language aquisition / searching for solutions / / / |
文献情報 |
信学技報, vol. 107, no. 282, SP2007-80, pp. 55-60, 2007年10月. |
資料番号 |
SP2007-80 |
発行日 |
|
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2007-80 |
|