講演抄録/キーワード |
講演名 |
2023-06-24 13:50
目標ドメイン音声を用いた自己教師あり学習に基づく音声認識モデルのドメイン適応 ○木内貴浩(豊橋技科大)・小川厚徳(NTT)・若林佑幸・北岡教英(豊橋技科大) SP2023-19 |
抄録 |
(和) |
本研究では,目標ドメインの書き起こしテキストデータを利用せず,目標ドメインの音声データのみを用い,目標外ドメインで事前学習された音声認識モデルからドメイン適応する手法を提案する.音声認識は様々なサービスや事業で活用されており,それらの各ドメインにおける音声の認識精度は,そのドメインにおける音声データ量に依存することが知られている.一般的には,高精度な音声認識モデル構築のために大量の音声データとその書き起こしテキストデータによってスクラッチで学習,またはfine-tuning することが望ましいが,各ドメインにおけるモデル構築の度にこれらのデータを用意することは高コストであり困難である.そこで我々は,音声データのみを準備することが比較的低コストでできることに着目する.この条件のもと,本研究では,大量の目標ドメイン音声のみで事前学習したwav2vec 2.0 モデルをEncoder とする,Encoder-Decoder型音声認識モデルを,目標外ドメインの大量の書き起こしコーパスでfine-tuning し,目標ドメインに適応させる手法を提案する.提案手法は,三つの段階的な学習: 1) wav2vec2.0の追加事前学習,2) wav2vec2.0のfine-tuning,3) wav2vec2.0をEncoderとしたJoint CTC/Transformerモデル構築,によって構成されている.本手法を用いることで,目標ドメイン評価データに対し,Encoder を目標ドメインで事前学習しない場合に比べて,文字誤り率が約3.8 pts 改善された. |
(英) |
In this study, we propose a domain adaptation method using only speech data in the target domain without using transcribed text data in the target domain based on a speech recognition model that has been pre-trained in the source domain. Speech recognition is used in various services and businesses, and it is known that the accuracy of speech recognition in each of these domains depends on the amount of speech data in that domain. Generally, it is desirable to train or fine-tune speech recognition models from scratch using a large amount of speech data and transcribed text data to build highly accurate models. However, preparing such data is expensive and difficult every time a model is built in each domain. Therefore, we focused on the fact that it is relatively inexpensive to prepare only audio data. Under these conditions, we developed an Encoder-Decoder speech recognition model using a Wav2Vec2.0 model as the Encoder, which was pre-trained with a large amount of target-domain speech only, and a large corpus of fine-tuned transcriptions in the non-target domain. We propose adapting an Encoder-Decoder type speech recognition model to the target domain by fine-tuning it with a large corpus of transcriptions in the off-target domain. The proposed method consists of three steps: 1) additional pre-training of wav2vec 2.0, 2) fine-tuning of wav2vec 2.0, and 3) building a Joint CTC/Transformer model with wav2vec 2.0 as the Encoder. This method improved the character error rate by approximately 3.8 pts compared to the case where the Encoder was not pre-trained in the target domain for the target domain evaluation data. |
キーワード |
(和) |
wav2vec 2.0 / ドメイン適応 / end-to-end 音声認識 / Encoder-Decoderモデル / / / / |
(英) |
wav2vec 2.0 / domain adaptation / end-to-end speech recognition / Encoder-Decoder model / / / / |
文献情報 |
信学技報, vol. 123, no. 88, SP2023-19, pp. 91-96, 2023年6月. |
資料番号 |
SP2023-19 |
発行日 |
2023-06-16 (SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2023-19 |