講演抄録/キーワード |
講演名 |
2019-05-31 10:00
画像を説明する多言語音声データを利用したクロスモーダル探索 大石康智・○木村昭悟・川西隆仁・柏野邦夫(NTT)・David Harwath・James Glass(マサチューセッツ工科大) PRMU2019-11 |
抄録 |
(和) |
画像とその内容を説明する音声キャプションを対応付けるためのニューラルネットワークモデルをクロスモーダル探索の観点で評価する.英語やヒンディ語に加えて,新たに収録した日本語音声キャプションからなる三か国語で学習したモデルは,一か国語だけで学習したモデルよりも精度が高いことを確認した.この三か国語モデルは,画像を基点として,異なる言語における音声単語を教師なしで対応付け,単語レベルの翻訳知識を獲得することを示す. |
(英) |
We evaluate a deep neural network model capable of learning to associate images and audio captions describing the content of those images on crossmodal search (image and speech retrieval). We show that training a trilingual model simultaneously on English, Hindi, and newly recorded Japanese audio caption data offers improved performance over the monolingual models. Further, we demonstrate the trilingual model implicitly learns meaningful word-level translations based on images. |
キーワード |
(和) |
視覚と音声言語 / 共有潜在空間 / クロスモーダル探索 / 畳み込みニューラルネットワーク / / / / |
(英) |
Vision and spoken language / Shared latent space / Crossmodal search / Convolutional neural network / / / / |
文献情報 |
信学技報, vol. 119, no. 64, PRMU2019-11, pp. 283-288, 2019年5月. |
資料番号 |
PRMU2019-11 |
発行日 |
2019-05-23 (PRMU) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2019-11 |