real-time MRIで収録した調音運動に基づくend-to-end音声合成

大谷,祐人; 澤田,隼; 大村,英史; 桂田,浩一

ご案内入会して研究会活動をもっとお得に！研究会参加費・年間登録費が会員価格になります。
お知らせ【重要】研究会参加費の支払いおよび原稿アップロード手続きの変更に関するご案内

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2023-02-28 09:50 real-time MRIで収録した調音運動に基づくend-to-end音声合成 ○大谷祐人・澤田　隼・大村英史・桂田浩一（東京理科大） EA2022-77 SIP2022-121 SP2022-41
抄録	（和）	real-time MRI (rtMRI)で収録した調音運動に基づいて音声を合成するend-to-end型の深層学習モデルを提案する．rtMRI動画像を入力とする音声合成の従来手法では声道形状パラメータのみを推定し，基本周波数などの情報は別途与えていた．本研究ではCNN-BiLSTMモデルでrtMRIからメルスペクトログラムを中間表現として推定し，HiFi-GANボコーダで音声を合成する手法を提案する．単一話者によるATR音素バランス503文の朗読をrtMRIで収録したデータセットを用いて合成音声の音質と基本周波数の推定精度を評価したところ，音質の評価指標であるPESQについては1.64のスコアを得ることができた．また，基本周波数F0のRMSEは26.7 Hzと良好であり，基本周波数を含む音響パラメータ全体をrtMRI動画像から推定できることを確認した．USC-TIMITデータベースを用いた実験ではPESQとF0 RMSEが良好であったが，発話内容が不明瞭であり，データセットの品質の重要性が示唆された．
	（英）	We propose an end-to-end deep learning model for speech synthesis based on articulatory movements captured by real-time MRI (rtMRI). Previous methods for speech synthesis from rtMRI videos only predict parameters of vocal tract shape and require additional information about fundamental frequency. In this work, we propose a model using a CNN-BiLSTM to predict the mel-spectrogram as an intermediate representation, and a HiFi-GAN vocoder to synthesize speech. We evaluated speech quality and the fundamental frequency accuracy of the synthesized speech on the rtMRI dataset containing ATR 503 sentences read by a single speaker. The experimental results show that the PESQ score and the RMSE of F0 are 1.64 and 26.7 Hz, respectively, which demonstrates that the entire acoustic parameters including the fundamental frequency can be estimated from rtMRI videos. In the experiment on USC-TIMIT database, we could get good PESQ score and RMSE of F0. However, the synthesized speech is unclear, which indicates quality of the datasets significantly affects intelligibleness of the synthesized speech.
キーワード	（和）	real-time MRI / 調音運動 / 音声合成 / end-to-end / / / /
	（英）	real-time MRI / articulatory movement / speech synthesis / end-to-end / / / /
文献情報		信学技報, vol. 122, no. 389, SP2022-41, pp. 13-18, 2023年2月.
資料番号		SP2022-41
発行日		2023-02-21 (EA, SIP, SP)
ISSN		Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		EA2022-77 SIP2022-121 SP2022-41

研究会情報
研究会	SP IPSJ-SLP EA SIP
開催期間	2023-02-28 - 2023-03-01
開催地（和）	沖縄県立博物館・美術館
開催地（英）
テーマ（和）	音声，応用／電気音響, 信号処理，一般
テーマ（英）
講演論文情報の詳細
申込み研究会	SP
会議コード	2023-02-SP-SLP-EA-SIP
本文の言語	日本語
タイトル（和）	real-time MRIで収録した調音運動に基づくend-to-end音声合成
サブタイトル（和）
タイトル（英）	End-to-End Speech Synthesis Based on Articulatory Movements Captured by Real-time MRI
サブタイトル（英）
キーワード(1)（和/英）	real-time MRI / real-time MRI
キーワード(2)（和/英）	調音運動 / articulatory movement
キーワード(3)（和/英）	音声合成 / speech synthesis
キーワード(4)（和/英）	end-to-end / end-to-end
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	大谷祐人 / Yuto Otani / オオタニユウト
第1著者所属（和/英）	東京理科大学 (略称：東京理科大) Tokyo University of Science (略称： Tokyo Univ. Sci.)
第2著者氏名（和/英/ヨミ）	澤田隼 / Shun Sawada / サワダシュン
第2著者所属（和/英）	東京理科大学 (略称：東京理科大) Tokyo University of Science (略称： Tokyo Univ. Sci.)
第3著者氏名（和/英/ヨミ）	大村英史 / Hidefumi Ohmura / オオムラヒデフミ
第3著者所属（和/英）	東京理科大学 (略称：東京理科大) Tokyo University of Science (略称： Tokyo Univ. Sci.)
第4著者氏名（和/英/ヨミ）	桂田浩一 / Kouichi Katsurada / カツラダコウイチ
第4著者所属（和/英）	東京理科大学 (略称：東京理科大) Tokyo University of Science (略称： Tokyo Univ. Sci.)
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
第21著者氏名（和/英/ヨミ）	/ /
第21著者所属（和/英）	(略称： ) (略称： )
第22著者氏名（和/英/ヨミ）	/ /
第22著者所属（和/英）	(略称： ) (略称： )
第23著者氏名（和/英/ヨミ）	/ /
第23著者所属（和/英）	(略称： ) (略称： )
第24著者氏名（和/英/ヨミ）	/ /
第24著者所属（和/英）	(略称： ) (略称： )
第25著者氏名（和/英/ヨミ）	/ /
第25著者所属（和/英）	(略称： ) (略称： )
第26著者氏名（和/英/ヨミ）	/ /
第26著者所属（和/英）	(略称： ) (略称： )
第27著者氏名（和/英/ヨミ）	/ /
第27著者所属（和/英）	(略称： ) (略称： )
第28著者氏名（和/英/ヨミ）	/ /
第28著者所属（和/英）	(略称： ) (略称： )
第29著者氏名（和/英/ヨミ）	/ /
第29著者所属（和/英）	(略称： ) (略称： )
第30著者氏名（和/英/ヨミ）	/ /
第30著者所属（和/英）	(略称： ) (略称： )
第31著者氏名（和/英/ヨミ）	/ /
第31著者所属（和/英）	(略称： ) (略称： )
第32著者氏名（和/英/ヨミ）	/ /
第32著者所属（和/英）	(略称： ) (略称： )
第33著者氏名（和/英/ヨミ）	/ /
第33著者所属（和/英）	(略称： ) (略称： )
第34著者氏名（和/英/ヨミ）	/ /
第34著者所属（和/英）	(略称： ) (略称： )
第35著者氏名（和/英/ヨミ）	/ /
第35著者所属（和/英）	(略称： ) (略称： )
第36著者氏名（和/英/ヨミ）	/ /
第36著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2023-02-28 09:50:00
発表時間	20分
申込先研究会	SP
資料番号	EA2022-77, SIP2022-121, SP2022-41
巻番号（vol）	vol.122
号番号（no）	no.387(EA), no.388(SIP), no.389(SP)
ページ範囲	pp.13-18
ページ数	6
発行日	2023-02-21 (EA, SIP, SP)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会