講演抄録/キーワード |
講演名 |
2023-06-24 13:50
言語情報と言語・非言語現象を同時認識する音声認識モデルの構築 ○塩根凪人・若林佑幸・北岡教英(豊橋技科大) SP2023-22 |
抄録 |
(和) |
近年では音声認識の技術が進歩しているが,言語情報だけ認識するものが多く,言語・非言語現象を認識できない.そこで本研究は,言語情報だけでなく多種類の言語・非言語現象も同時認識する音声認識モデルを提案する.認識する言語・非言語現象は,フィラー・笑い・疑問系上昇調・発話の終了・言い誤り・語のいいさし・小さい声の発話・会話の流れに関わる発話・方言や外国語の発話である.また,言語・非言語現象を示すタグの付与位置による音声認識への影響の調査を行った.実験の結果,日本語日常会話コーパスにおいて言語・非言語現象タグを言語情報の前に付与する認識を行う音声認識モデルが,文字誤り率の観点から最適であることを示した.また,言語・非言語現象の同時認識によって,音声認識精度向上に繋がることがわかった. |
(英) |
Although speech recognition technology has advanced in recent years, most of them recognize only linguistic information and cannot recognize verbal/non-verbal (VNV) phenomena. In this study, we propose a speech recognition model that simultaneously recognizes various types of VNV phenomena and linguistic information. The VNV phenomena to be recognized are filler, laughter, rising intonation in questions, end of speech, word errors, word restarts, small speech, speech related to the flow of conversation, and speech in dialects and foreign languages. In addition, we investigated the effect of the position of tags indicating VNV on speech recognition. The experimental results demonstrated that the best speech recognition model for the CEJC database was the one in which the VNV phenomenon tag was annotated before the linguistic information in the transcribed text. We also showed that the accuracy of speech recognition is improved by recognizing VNV phenomena. |
キーワード |
(和) |
End-to-End音声認識 / Encoder-Decoderモデル / 言語現象 / 非言語現象 / / / / |
(英) |
End-to-End automatic speech recognition / Encoder-Decoder model / verbal phenomena / non-verbal phenomena / / / / |
文献情報 |
信学技報, vol. 123, no. 88, SP2023-22, pp. 109-113, 2023年6月. |
資料番号 |
SP2023-22 |
発行日 |
2023-06-16 (SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2023-22 |