画像を説明する多言語音声データを利用したクロスモーダル探索

大石,康智; 木村,昭悟; 川西,隆仁; 柏野,邦夫; David,Harwath; James,Glass

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2019-05-31 10:00 画像を説明する多言語音声データを利用したクロスモーダル探索大石康智・○木村昭悟・川西隆仁・柏野邦夫（NTT）・David Harwath・James Glass（マサチューセッツ工科大） PRMU2019-11
抄録	（和）	画像とその内容を説明する音声キャプションを対応付けるためのニューラルネットワークモデルをクロスモーダル探索の観点で評価する．英語やヒンディ語に加えて，新たに収録した日本語音声キャプションからなる三か国語で学習したモデルは，一か国語だけで学習したモデルよりも精度が高いことを確認した．この三か国語モデルは，画像を基点として，異なる言語における音声単語を教師なしで対応付け，単語レベルの翻訳知識を獲得することを示す．
	（英）	We evaluate a deep neural network model capable of learning to associate images and audio captions describing the content of those images on crossmodal search (image and speech retrieval). We show that training a trilingual model simultaneously on English, Hindi, and newly recorded Japanese audio caption data offers improved performance over the monolingual models. Further, we demonstrate the trilingual model implicitly learns meaningful word-level translations based on images.
キーワード	（和）	視覚と音声言語 / 共有潜在空間 / クロスモーダル探索 / 畳み込みニューラルネットワーク / / / /
	（英）	Vision and spoken language / Shared latent space / Crossmodal search / Convolutional neural network / / / /
文献情報		信学技報, vol. 119, no. 64, PRMU2019-11, pp. 283-288, 2019年5月.
資料番号		PRMU2019-11
発行日		2019-05-23 (PRMU)
ISSN		Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		PRMU2019-11

研究会情報
研究会	PRMU IPSJ-CVIM
開催期間	2019-05-30 - 2019-05-31
開催地（和）	オリンピック記念青少年センタ
開催地（英）
テーマ（和）	第一次産業
テーマ（英）
講演論文情報の詳細
申込み研究会	PRMU
会議コード	2019-05-PRMU-CVIM
本文の言語	日本語
タイトル（和）	画像を説明する多言語音声データを利用したクロスモーダル探索
サブタイトル（和）
タイトル（英）	Cross-modal Search using Visually Grounded Multilingual Speech Signal
サブタイトル（英）
キーワード(1)（和/英）	視覚と音声言語 / Vision and spoken language
キーワード(2)（和/英）	共有潜在空間 / Shared latent space
キーワード(3)（和/英）	クロスモーダル探索 / Crossmodal search
キーワード(4)（和/英）	畳み込みニューラルネットワーク / Convolutional neural network
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	大石康智 / Yasunori Ohishi / オオイシヤスノリ
第1著者所属（和/英）	日本電信電話株式会社 (略称： NTT) NIPPON TELEGRAPH AND TELEPHONE CORPORATION (略称： NTT)
第2著者氏名（和/英/ヨミ）	木村昭悟 / Akisato Kimura / キムラアキサト
第2著者所属（和/英）	日本電信電話株式会社 (略称： NTT) NIPPON TELEGRAPH AND TELEPHONE CORPORATION (略称： NTT)
第3著者氏名（和/英/ヨミ）	川西隆仁 / Takahito Kawanishi / カワニシタカヒト
第3著者所属（和/英）	日本電信電話株式会社 (略称： NTT) NIPPON TELEGRAPH AND TELEPHONE CORPORATION (略称： NTT)
第4著者氏名（和/英/ヨミ）	柏野邦夫 / Kashino Kunio / カシノクニオ
第4著者所属（和/英）	日本電信電話株式会社 (略称： NTT) NIPPON TELEGRAPH AND TELEPHONE CORPORATION (略称： NTT)
第5著者氏名（和/英/ヨミ）	David Harwath / David Harwath /
第5著者所属（和/英）	* (略称：マサチューセッツ工科大) Massachusetts Institute of Technology (略称： MIT)
第6著者氏名（和/英/ヨミ）	James Glass / James Glass /
第6著者所属（和/英）	* (略称：マサチューセッツ工科大) Massachusetts Institute of Technology (略称： MIT)
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第2著者
発表日時	2019-05-31 10:00:00
発表時間	15分
申込先研究会	PRMU
資料番号	PRMU2019-11
巻番号（vol）	vol.119
号番号（no）	no.64
ページ範囲	pp.283-288
ページ数	6
発行日	2019-05-23 (PRMU)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会