講演抄録/キーワード |
講演名 |
2022-12-16 14:55
TextVQAタスクの正答可能性判定 ○中村亘岐・内田誠一(九大) PRMU2022-51 |
抄録 |
(和) |
Text Visual Question Answering (TextVQA)とは,画像とその画像に関する質問文による入力に対し,画像内文字情報を活用して自然言語による解答を生成するタスクである.このタスクでは様々な手法が提案されているが,現在のState-of-the-artであってもその正答率は7割程度に留まっている.そこで,どのような要因がtextVQAを難しくしているかを理解するため,TextVQAモデルの解答とその学習で使用したデータセットを入力として,モデルが正しい解答をすることが可能か否かを二値分類予測し,その結果の解析を試みた. |
(英) |
Text Visual Question Answering (TextVQA) is a task that uses textual information in images to generate natural language answers to questions about the images. Various methods have been proposed for this task, but even with the current state-of-the-art, the accuracy rate is only about 70%. To understand what factors make TextVQA difficult, we attempted to analyze the results of binary classification predictions of whether or not the model is capable of producing correct answers, using the answers to the TextVQA model and the dataset used in its training as input. |
キーワード |
(和) |
TextVQA / マルチモーダル / 二値分類 / / / / / |
(英) |
TextVQA / multimodal / binary classification / / / / / |
文献情報 |
信学技報, vol. 122, no. 314, PRMU2022-51, pp. 100-105, 2022年12月. |
資料番号 |
PRMU2022-51 |
発行日 |
2022-12-08 (PRMU) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2022-51 |