講演抄録/キーワード |
講演名 |
2022-03-03 10:45
DALLEアーキテクチャに基づくマルチモーダル教示に対する汎用応答システムの開発 ○坂口翔太郎・撫中達司・倉重宏樹(東海大) NC2021-62 |
抄録 |
(和) |
画像と言語など複数モダリティの入力を統合し,言語応答を生成するAIシステムが開発されてきている.しかし,それらの多くはある特定用途への適用に特化したアーキテェクチャや学習設計となっており,そのままほかの課題に応用することができない.これはまた,大規模データの学習により特定課題へのチューニングなしでそれを行える「汎用モデル」の開発にも障壁になる.そこで本研究では,深層ニューラルネットアーキテクチャDALL·Eをもとに,汎用的に適用可能な画像-言語教示に対する言語応答システムの開発を試みた. 視覚質問応答課題データにて性能が評価され学習用データで50%,評価用データで36-42%の正答率を得た.一方,結果の詳細な分析から,アーキテクチャや学習データセットの選定における改善点が見出された. |
(英) |
Recently, AI systems that make an answer to a multi-modally integrated instruction composing of texts and images have been developed. However, since such a system is directed to a specific task in respect of the architecture and the learning method, it, as is, cannot be applied to other tasks. Additionally, this situation prevents to development of general-purpose AI models which are applicable to any task without additional parameter tuning thanks to very large-scale data. Therefore, in the present study, we propose a more generally usable answering system to visual-linguistic instructions based on the DALL・E. The proposed model was evaluated using a dataset for a visual question answering task. We observed that the model had 50% and 36-42% accuracies in the training and valuation data, respectively. In addition, we found some improvements through a detailed analysis of the errors. |
キーワード |
(和) |
テキスト生成 / 画像処理 / DALL・E / / / / / |
(英) |
Text-generation / Image-generation / DALL・E / / / / / |
文献情報 |
信学技報, vol. 121, no. 390, NC2021-62, pp. 82-87, 2022年3月. |
資料番号 |
NC2021-62 |
発行日 |
2022-02-23 (NC) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2021-62 |