講演抄録/キーワード |
講演名 |
2023-03-17 14:15
機械読唇における三次元モデルを用いたデータ拡張が認識精度に与える影響 ○木村一馬・大田健紘(日本工大) MICT2022-59 |
抄録 |
(和) |
本研究では口部情報のみから発話内容を推定する読唇術を機械学習で行うために,発話者の顔の三次元モデルをデータ拡張に使用する方法について検討する.従来の我々の研究では単語単位での認識を行なっていたが,通常の連続音声認識と同様に音素単位での認識の手法を取り入れる.評価の結果,評価データの話者が学習データの話者に含まれており,三次元モデルに変換していないデータにおいて,0.2842のエラーレートを達成した.また,評価データの話者が学習データの話者に含まれておらず,三次元モデルに変換していないデータにおいても0.3290のエラーレートを達成した.今後は音声認識の汎用性を高めるために文章を発話したデータの増量を進めていく必要がある. |
(英) |
In this study, we investigate the use of a three-dimensional model of a speaker's face as a data augmentation method for machine learning lip reading, which estimates the content of speech based only on oral information. In our previous research, recognition was performed on a word-by-word basis, but we also introduce a method for recognition on a phoneme-by-phoneme basis, similar to normal continuous speech recognition. As a result of the evaluation, we achieved an error rate of 0.2842 for the data in which the speaker of the evaluation data was included in the speaker of the training data and was not converted to a three-dimensional model. The error rate of 0.3290 was also achieved for data where the speaker of the evaluation data was not included in the speaker of the training data and was not converted to a three-dimensional model. In the future, it will be necessary to increase the amount of data with sentences in order to improve the versatility of speech recognition |
キーワード |
(和) |
読唇術 / 三次元モデル / 音素 / データ拡張 / / / / |
(英) |
Lipreading / 3D Models / Phoneme / Data augmentation / / / / |
文献情報 |
信学技報, vol. 122, no. 447, MICT2022-59, pp. 17-21, 2023年3月. |
資料番号 |
MICT2022-59 |
発行日 |
2023-03-10 (MICT) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
MICT2022-59 |