日本語音声合成におけるアクセント句韻律特徴量の表現と予測

佐藤,匡紀; 高道,慎之介; 猿渡,洋

ご案内入会して研究会活動をもっとお得に！研究会参加費・年間登録費が会員価格になります。
お知らせ【重要】研究会参加費の支払いおよび原稿アップロード手続きの変更に関するご案内

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2023-03-01 11:00 日本語音声合成におけるアクセント句韻律特徴量の表現と予測 ○佐藤匡紀・高道慎之介・猿渡　洋（東大） EA2022-108 SIP2022-152 SP2022-72
抄録	（和）	音声合成を対話システムやオーディオブックにおける感情表現などさまざまな場面で利用するには，読み上げ口調だけではなく自然で表現豊かな口調の音声合成も求められる．しかし表現豊かな音声の韻律はアクセント句末尾で多様な変化をすることが知られており，このアクセント句単位の多様な音調を表現するには自発性や談話機能を考慮することが求められる．本研究ではF0からアクセント句ごとに韻律情報を表現する特徴量を予測するモデルを作成し，その韻律特徴量をテキストから予測して音声合成モデルを条件付けることで，韻律予測精度の改善を目指す．そのために，日本語知識に基づく音調ラベルを韻律特徴量として用いる手法と，データ駆動で音声合成モデルとの同時学習で獲得される離散的な韻律特徴量を用いる手法の二つを提案する．主観評価と客観評価によって，データ駆動でF0から韻律特徴量を獲得し，その韻律特徴量を用いた場合に韻律が改善されることが確認された．
	（英）	In order to use speech synthesis in a variety of situations such as dialogue systems and emotional expression in audiobooks, it is necessary to express natural and expressive tones of speech. However, it is well known that the prosody of expressive speech varies at the end of accented phrases, and spontaneity and discourse functions must be taken into account in order to express the various tones of accented phrases. This study aims to improve the accuracy of prosody prediction by creating a model that predicts prosodic features for each accent phrase from F0, and conditioning a speech synthesis model on the predictions of these prosodic features from the text. To achieve this, we propose two methods: one is to use tonal labels based on Japanese knowledge as prosodic features, and the other is to use discrete prosodic features acquired by data-driven simultaneous training with a speech synthesis model. Subjective and objective evaluation confirmed that the prosody was improved by synthesizing speech using the data-driven prosodic features obtained from F0.
キーワード	（和）	音声合成 / 複合境界音調 / パラ言語情報 / VQ-VAE / 自発音声 / / /
	（英）	text-to-speech / boundary pitch movement / paralinguistic information / VQ-VAE / spontaneous speech / / /
文献情報		信学技報, vol. 122, no. 389, SP2022-72, pp. 197-202, 2023年2月.
資料番号		SP2022-72
発行日		2023-02-21 (EA, SIP, SP)
ISSN		Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		EA2022-108 SIP2022-152 SP2022-72

研究会情報
研究会	SP IPSJ-SLP EA SIP
開催期間	2023-02-28 - 2023-03-01
開催地（和）	沖縄県立博物館・美術館
開催地（英）
テーマ（和）	音声，応用／電気音響, 信号処理，一般
テーマ（英）
講演論文情報の詳細
申込み研究会	SP
会議コード	2023-02-SP-SLP-EA-SIP
本文の言語	日本語
タイトル（和）	日本語音声合成におけるアクセント句韻律特徴量の表現と予測
サブタイトル（和）
タイトル（英）	Representation and Prediction of Accent Phrase Prosodic Features in Japanese Text-to-Speech
サブタイトル（英）
キーワード(1)（和/英）	音声合成 / text-to-speech
キーワード(2)（和/英）	複合境界音調 / boundary pitch movement
キーワード(3)（和/英）	パラ言語情報 / paralinguistic information
キーワード(4)（和/英）	VQ-VAE / VQ-VAE
キーワード(5)（和/英）	自発音声 / spontaneous speech
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	佐藤匡紀 / Masaki Sato / サトウマサキ
第1著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： The Univ. of Tokyo)
第2著者氏名（和/英/ヨミ）	高道慎之介 / Shinnosuke Takamichi / タカミチシンノスケ
第2著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： The Univ. of Tokyo)
第3著者氏名（和/英/ヨミ）	猿渡洋 / Hiroshi Saruwatari /
第3著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： The Univ. of Tokyo)
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
第21著者氏名（和/英/ヨミ）	/ /
第21著者所属（和/英）	(略称： ) (略称： )
第22著者氏名（和/英/ヨミ）	/ /
第22著者所属（和/英）	(略称： ) (略称： )
第23著者氏名（和/英/ヨミ）	/ /
第23著者所属（和/英）	(略称： ) (略称： )
第24著者氏名（和/英/ヨミ）	/ /
第24著者所属（和/英）	(略称： ) (略称： )
第25著者氏名（和/英/ヨミ）	/ /
第25著者所属（和/英）	(略称： ) (略称： )
第26著者氏名（和/英/ヨミ）	/ /
第26著者所属（和/英）	(略称： ) (略称： )
第27著者氏名（和/英/ヨミ）	/ /
第27著者所属（和/英）	(略称： ) (略称： )
第28著者氏名（和/英/ヨミ）	/ /
第28著者所属（和/英）	(略称： ) (略称： )
第29著者氏名（和/英/ヨミ）	/ /
第29著者所属（和/英）	(略称： ) (略称： )
第30著者氏名（和/英/ヨミ）	/ /
第30著者所属（和/英）	(略称： ) (略称： )
第31著者氏名（和/英/ヨミ）	/ /
第31著者所属（和/英）	(略称： ) (略称： )
第32著者氏名（和/英/ヨミ）	/ /
第32著者所属（和/英）	(略称： ) (略称： )
第33著者氏名（和/英/ヨミ）	/ /
第33著者所属（和/英）	(略称： ) (略称： )
第34著者氏名（和/英/ヨミ）	/ /
第34著者所属（和/英）	(略称： ) (略称： )
第35著者氏名（和/英/ヨミ）	/ /
第35著者所属（和/英）	(略称： ) (略称： )
第36著者氏名（和/英/ヨミ）	/ /
第36著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2023-03-01 11:00:00
発表時間	20分
申込先研究会	SP
資料番号	EA2022-108, SIP2022-152, SP2022-72
巻番号（vol）	vol.122
号番号（no）	no.387(EA), no.388(SIP), no.389(SP)
ページ範囲	pp.197-202
ページ数	6
発行日	2023-02-21 (EA, SIP, SP)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会