機械読唇における三次元モデルを用いたデータ拡張が認識精度に与える影響

木村,一馬; 大田,健紘

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2023-03-17 14:15 機械読唇における三次元モデルを用いたデータ拡張が認識精度に与える影響 ○木村一馬・大田健紘（日本工大） MICT2022-59
抄録	（和）	本研究では口部情報のみから発話内容を推定する読唇術を機械学習で行うために，発話者の顔の三次元モデルをデータ拡張に使用する方法について検討する．従来の我々の研究では単語単位での認識を行なっていたが，通常の連続音声認識と同様に音素単位での認識の手法を取り入れる．評価の結果，評価データの話者が学習データの話者に含まれており，三次元モデルに変換していないデータにおいて，0.2842のエラーレートを達成した．また，評価データの話者が学習データの話者に含まれておらず，三次元モデルに変換していないデータにおいても0.3290のエラーレートを達成した．今後は音声認識の汎用性を高めるために文章を発話したデータの増量を進めていく必要がある．
	（英）	In this study, we investigate the use of a three-dimensional model of a speaker's face as a data augmentation method for machine learning lip reading, which estimates the content of speech based only on oral information. In our previous research, recognition was performed on a word-by-word basis, but we also introduce a method for recognition on a phoneme-by-phoneme basis, similar to normal continuous speech recognition. As a result of the evaluation, we achieved an error rate of 0.2842 for the data in which the speaker of the evaluation data was included in the speaker of the training data and was not converted to a three-dimensional model. The error rate of 0.3290 was also achieved for data where the speaker of the evaluation data was not included in the speaker of the training data and was not converted to a three-dimensional model. In the future, it will be necessary to increase the amount of data with sentences in order to improve the versatility of speech recognition
キーワード	（和）	読唇術 / 三次元モデル / 音素 / データ拡張 / / / /
	（英）	Lipreading / 3D Models / Phoneme / Data augmentation / / / /
文献情報		信学技報, vol. 122, no. 447, MICT2022-59, pp. 17-21, 2023年3月.
資料番号		MICT2022-59
発行日		2023-03-10 (MICT)
ISSN		Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		MICT2022-59

研究会情報
研究会	EMCJ MICT
開催期間	2023-03-17 - 2023-03-17
開催地（和）	機械振興会館
開催地（英）	Kikai-Shinko-Kaikan Bldg
テーマ（和）	ヘルスケア・医療情報通信技術，生体，EMC，一般
テーマ（英）	Healthcare and Medical Information Communication Technologies, EMC, etc
講演論文情報の詳細
申込み研究会	MICT
会議コード	2023-03-EMCJ-MICT
本文の言語	日本語
タイトル（和）	機械読唇における三次元モデルを用いたデータ拡張が認識精度に与える影響
サブタイトル（和）
タイトル（英）	An Effect of Data Augmentation using 3D Models in Machine Lipreading on Recognition Accuracy
サブタイトル（英）
キーワード(1)（和/英）	読唇術 / Lipreading
キーワード(2)（和/英）	三次元モデル / 3D Models
キーワード(3)（和/英）	音素 / Phoneme
キーワード(4)（和/英）	データ拡張 / Data augmentation
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	木村一馬 / Kazuma Kimura / キムラカズマ
第1著者所属（和/英）	日本工業大学 (略称：日本工大) Nippon Institute of Technology (略称： NIT)
第2著者氏名（和/英/ヨミ）	大田健紘 / Kenko Ota / オオタケンコウ
第2著者所属（和/英）	日本工業大学 (略称：日本工大) Nippon Institute of Technology (略称： NIT)
第3著者氏名（和/英/ヨミ）	/ /
第3著者所属（和/英）	(略称： ) (略称： )
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2023-03-17 14:15:00
発表時間	25分
申込先研究会	MICT
資料番号	MICT2022-59
巻番号（vol）	vol.122
号番号（no）	no.447
ページ範囲	pp.17-21
ページ数	5
発行日	2023-03-10 (MICT)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会