お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2022-03-03 10:45
DALLEアーキテクチャに基づくマルチモーダル教示に対する汎用応答システムの開発
坂口翔太郎撫中達司倉重宏樹東海大NC2021-62
抄録 (和) 画像と言語など複数モダリティの入力を統合し,言語応答を生成するAIシステムが開発されてきている.しかし,それらの多くはある特定用途への適用に特化したアーキテェクチャや学習設計となっており,そのままほかの課題に応用することができない.これはまた,大規模データの学習により特定課題へのチューニングなしでそれを行える「汎用モデル」の開発にも障壁になる.そこで本研究では,深層ニューラルネットアーキテクチャDALL·Eをもとに,汎用的に適用可能な画像-言語教示に対する言語応答システムの開発を試みた. 視覚質問応答課題データにて性能が評価され学習用データで50%,評価用データで36-42%の正答率を得た.一方,結果の詳細な分析から,アーキテクチャや学習データセットの選定における改善点が見出された. 
(英) Recently, AI systems that make an answer to a multi-modally integrated instruction composing of texts and images have been developed. However, since such a system is directed to a specific task in respect of the architecture and the learning method, it, as is, cannot be applied to other tasks. Additionally, this situation prevents to development of general-purpose AI models which are applicable to any task without additional parameter tuning thanks to very large-scale data. Therefore, in the present study, we propose a more generally usable answering system to visual-linguistic instructions based on the DALL・E. The proposed model was evaluated using a dataset for a visual question answering task. We observed that the model had 50% and 36-42% accuracies in the training and valuation data, respectively. In addition, we found some improvements through a detailed analysis of the errors.
キーワード (和) テキスト生成 / 画像処理 / DALL・E / / / / /  
(英) Text-generation / Image-generation / DALL・E / / / / /  
文献情報 信学技報, vol. 121, no. 390, NC2021-62, pp. 82-87, 2022年3月.
資料番号 NC2021-62 
発行日 2022-02-23 (NC) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2021-62

研究会情報
研究会 MBE NC  
開催期間 2022-03-02 - 2022-03-04 
開催地(和) オンライン開催 
開催地(英) Online 
テーマ(和) NC, ME,一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NC 
会議コード 2022-03-MBE-NC 
本文の言語 日本語 
タイトル(和) DALLEアーキテクチャに基づくマルチモーダル教示に対する汎用応答システムの開発 
サブタイトル(和)  
タイトル(英) A General‐purpose Answering System to Visuo-linguistic Instructions based on a DALLE-based Architecture 
サブタイトル(英)  
キーワード(1)(和/英) テキスト生成 / Text-generation  
キーワード(2)(和/英) 画像処理 / Image-generation  
キーワード(3)(和/英) DALL・E / DALL・E  
キーワード(4)(和/英) /  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 坂口 翔太郎 / Shotaro Sakaguchi / サカグチ ショウタロウ
第1著者 所属(和/英) 東海大学 (略称: 東海大)
Tokai University (略称: Tokai Univ)
第2著者 氏名(和/英/ヨミ) 撫中 達司 / Tatuji Munaka / ムナカ タツジ
第2著者 所属(和/英) 東海大学 (略称: 東海大)
Tokai University (略称: Tokai Univ)
第3著者 氏名(和/英/ヨミ) 倉重 宏樹 / Hiroki Kurashige / クラシゲ ヒロキ
第3著者 所属(和/英) 東海大学 (略称: 東海大)
Tokai University (略称: Tokai Univ)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2022-03-03 10:45:00 
発表時間 25分 
申込先研究会 NC 
資料番号 NC2021-62 
巻番号(vol) vol.121 
号番号(no) no.390 
ページ範囲 pp.82-87 
ページ数
発行日 2022-02-23 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会