講演抄録/キーワード |
講演名 |
2022-10-22 15:40
Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案 ○青木伸和・澤田 隼・大村英史・桂田浩一(東京理科大) SP2022-28 WIT2022-3 |
抄録 |
(和) |
先行手法であるConformerエンコーダーを用いたlate fusionモデルのマルチモーダル音声認識では,視覚情報と音声情報の双方で独立したConformerエンコーダーを使用しているため,両モダリティ間の低レベルな関係を考慮した学習ができていない可能性があった.そこで本研究ではConformerエンコーダーを用いたearly fusion型のEnd-to-Endマルチモーダル音声認識モデルを検討し,モダリティ間の低レベルな関係を学習可能にすることで性能向上を図る.その結果,先行研究に対して特に低SNR下での認識精度が大幅に向上することを確認できた.また,early fusionによってモデルのパラメータ数も大幅に削減できることを確認した. |
(英) |
Previous studies of late fusion models with conformer encoders use independent encoders for both visual and audio information, which may prevent the encoders from capturing the low-level relation of both information. In this study, we investigate an end-to-end audio-visual speech recognition model with early fusion using a conformer encoder to improve its performance. We aim at utilizing the information of both modalities in the low-level process of feature extraction. The experimental results show that the accuracy of early fusion in recognition rate under low SNR outperforms that of late fusion proposed in the previous studies. We also confirmed that the total number of parameters in the model can be reduced by introducing early fusion. |
キーワード |
(和) |
マルチモーダル音声認識 / Conformerモデル / 早期結合モデル / / / / / |
(英) |
Audio-visual speech recognition / Conformer model / Early fusion / / / / / |
文献情報 |
信学技報, vol. 122, no. 221, SP2022-28, pp. 8-13, 2022年10月. |
資料番号 |
SP2022-28 |
発行日 |
2022-10-15 (SP, WIT) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2022-28 WIT2022-3 |