お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2023-03-17 14:15
機械読唇における三次元モデルを用いたデータ拡張が認識精度に与える影響
木村一馬大田健紘日本工大MICT2022-59
抄録 (和) 本研究では口部情報のみから発話内容を推定する読唇術を機械学習で行うために,発話者の顔の三次元モデルをデータ拡張に使用する方法について検討する.従来の我々の研究では単語単位での認識を行なっていたが,通常の連続音声認識と同様に音素単位での認識の手法を取り入れる.評価の結果,評価データの話者が学習データの話者に含まれており,三次元モデルに変換していないデータにおいて,0.2842のエラーレートを達成した.また,評価データの話者が学習データの話者に含まれておらず,三次元モデルに変換していないデータにおいても0.3290のエラーレートを達成した.今後は音声認識の汎用性を高めるために文章を発話したデータの増量を進めていく必要がある. 
(英) In this study, we investigate the use of a three-dimensional model of a speaker's face as a data augmentation method for machine learning lip reading, which estimates the content of speech based only on oral information. In our previous research, recognition was performed on a word-by-word basis, but we also introduce a method for recognition on a phoneme-by-phoneme basis, similar to normal continuous speech recognition. As a result of the evaluation, we achieved an error rate of 0.2842 for the data in which the speaker of the evaluation data was included in the speaker of the training data and was not converted to a three-dimensional model. The error rate of 0.3290 was also achieved for data where the speaker of the evaluation data was not included in the speaker of the training data and was not converted to a three-dimensional model. In the future, it will be necessary to increase the amount of data with sentences in order to improve the versatility of speech recognition
キーワード (和) 読唇術 / 三次元モデル / 音素 / データ拡張 / / / /  
(英) Lipreading / 3D Models / Phoneme / Data augmentation / / / /  
文献情報 信学技報, vol. 122, no. 447, MICT2022-59, pp. 17-21, 2023年3月.
資料番号 MICT2022-59 
発行日 2023-03-10 (MICT) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード MICT2022-59

研究会情報
研究会 EMCJ MICT  
開催期間 2023-03-17 - 2023-03-17 
開催地(和) 機械振興会館 
開催地(英) Kikai-Shinko-Kaikan Bldg 
テーマ(和) ヘルスケア・医療情報通信技術,生体,EMC,一般 
テーマ(英) Healthcare and Medical Information Communication Technologies, EMC, etc 
講演論文情報の詳細
申込み研究会 MICT 
会議コード 2023-03-EMCJ-MICT 
本文の言語 日本語 
タイトル(和) 機械読唇における三次元モデルを用いたデータ拡張が認識精度に与える影響 
サブタイトル(和)  
タイトル(英) An Effect of Data Augmentation using 3D Models in Machine Lipreading on Recognition Accuracy 
サブタイトル(英)  
キーワード(1)(和/英) 読唇術 / Lipreading  
キーワード(2)(和/英) 三次元モデル / 3D Models  
キーワード(3)(和/英) 音素 / Phoneme  
キーワード(4)(和/英) データ拡張 / Data augmentation  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 木村 一馬 / Kazuma Kimura / キムラ カズマ
第1著者 所属(和/英) 日本工業大学 (略称: 日本工大)
Nippon Institute of Technology (略称: NIT)
第2著者 氏名(和/英/ヨミ) 大田 健紘 / Kenko Ota / オオタ ケンコウ
第2著者 所属(和/英) 日本工業大学 (略称: 日本工大)
Nippon Institute of Technology (略称: NIT)
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2023-03-17 14:15:00 
発表時間 25分 
申込先研究会 MICT 
資料番号 MICT2022-59 
巻番号(vol) vol.122 
号番号(no) no.447 
ページ範囲 pp.17-21 
ページ数
発行日 2023-03-10 (MICT) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会