講演抄録/キーワード |
講演名 |
2018-06-28 14:10
音声認識のための画像特徴量を用いた言語モデルの検討 ○萩原愛子・伊藤 均・一木麻乃・三島 剛・佐藤庄衛(NHK) PRMU2018-22 SP2018-2 |
抄録 |
(和) |
NHKは,生放送番組の字幕制作ならびに取材映像の書き起こし生成のため音声認識を用いたシステムの開発を進めている. NHKが認識の対象とする音声には映像が付随していることが多く,映像からはドメインの推定といった言語モデル精度の向上につながる情報の取得が期待できる.そこで,画像特徴量を言語モデルに取り組む手法を2つ提案した.1つめは一般物体認識モデルの隠れ層を抽出する.2つめは自動生成された画像のキャプションを学習に用いる.一般的な再帰型言語モデルと比較して,1つめの手法においてパープレキシティが5% 低減し,提案手法の有効性を確認した. |
(英) |
NHK is pursuing the development of a system using speech recognition for the closed caption production of live broadcasting and transcription of interview video footage. In many cases, it is possible to acquire images as well as audio from video footage. From the images, it is expected to obtain information that leads to improvement of language model accuracy such as domain identification. Therefore, we proposed two methods to adopt image features to language models. The first method is to extract the hidden layer of the image recognition model, and the second is to incorporate the image description captions which automatically generated. Compared to the baseline recurrent neural network language model, perplexity decreased in the first method. |
キーワード |
(和) |
音声認識 / 言語モデル / 一般物体認識 / 画像キャプション / マルチモーダル / / / |
(英) |
Speech recognition / Language model / Image recognition / Image captioning / / / / |
文献情報 |
信学技報, vol. 118, no. 112, SP2018-2, pp. 3-6, 2018年6月. |
資料番号 |
SP2018-2 |
発行日 |
2018-06-21 (PRMU, SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2018-22 SP2018-2 |