お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2023-05-19 15:25
Vision-Languageモデルを用いた物体検出におけるプロンプト学習手法の検討
泊口万里子OKIPRMU2023-12
抄録 (和) 2ステージ物体検出モデルは,物体の映っている可能性の高い領域の特徴を切り出して物体のクラス分類を行う.本研究は,物体箇所以外の周囲の環境情報が物体検出のクラス分類に与える影響を検討し,Vision-Languageモデルを用いた物体検出のためのより良いプロンプト学習手法を提案する.まず,データ拡張を施した画像データを用いてCLIPのプロンプト学習を行うことで周囲の環境情報を含む,または含まないプロンプトを作成する.次に,この学習済みプロンプトをCLIPの言語エンコーダに入力して得られる出力言語埋め込みを用いてクラス推定を行うよう物体検出モデルを学習する.本手法はLVISデータセットで,周囲の環境情報を含むプロンプトを用いると 20.3 % $mathrm{AP}$を,周囲の環境情報を含まないプロンプトを用いると 21.6 % $mathrm{AP}$ を達成した.特にLVISのfrequencyクラスではそれぞれ 27.9 % mathrm{AP}_f$と29.1 % $mathrm{AP}_f$を達成した. 
(英) The two-stage object detection models crop features in the regions where objects are most likely to be to classify the objects. In this work, we investigate the influence of the surrounding information on the objects on classifying objects and improve the prompt learning method for object detection using Vision-Language models. We learn the learnable vectors correspond to input prompts to CLIP with augmented data to create prompts with and without surroundings information. Then, we train the object detection model substituting the calculation of the classification score for the language embedding obtained from passing the learned prompts through the CLIP language encoder. Our method achieves 20.3 %$mathrm{AP}$ on the LVIS dataset with prompts including surroundings, and 21.6 %$mathrm{AP}$ with prompts not including surroundings. In particular, 27.9 % mathrm{AP}_f$ and 29.1 % $mathrm{AP}_f$ are achieved in the LVIS frequency class, respectively.
キーワード (和) 深層学習 / 物体検出 / Mask R-CNN / プロンプト学習 / CLIP / / /  
(英) deep learning / object detection / Mask R-CNN / prompt learning / CLIP / / /  
文献情報 信学技報, vol. 123, no. 30, PRMU2023-12, pp. 62-67, 2023年5月.
資料番号 PRMU2023-12 
発行日 2023-05-11 (PRMU) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード PRMU2023-12

研究会情報
研究会 PRMU IPSJ-CVIM  
開催期間 2023-05-18 - 2023-05-19 
開催地(和) 名古屋工業大学 
開催地(英)  
テーマ(和) NeRF等のニューラルシーン表現 
テーマ(英)  
講演論文情報の詳細
申込み研究会 PRMU 
会議コード 2023-05-PRMU-CVIM 
本文の言語 日本語 
タイトル(和) Vision-Languageモデルを用いた物体検出におけるプロンプト学習手法の検討 
サブタイトル(和)  
タイトル(英) Prompt Learning for Object Detection with Vision-Language Model 
サブタイトル(英)  
キーワード(1)(和/英) 深層学習 / deep learning  
キーワード(2)(和/英) 物体検出 / object detection  
キーワード(3)(和/英) Mask R-CNN / Mask R-CNN  
キーワード(4)(和/英) プロンプト学習 / prompt learning  
キーワード(5)(和/英) CLIP / CLIP  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 泊口 万里子 / Mariko Tomariguchi / トマリグチ マリコ
第1著者 所属(和/英) 沖電気工業株式会社 (略称: OKI)
Oki Electric Industry Co., Ltd. (略称: OKI)
第2著者 氏名(和/英/ヨミ) / /
第2著者 所属(和/英) (略称: )
(略称: )
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2023-05-19 15:25:00 
発表時間 15分 
申込先研究会 PRMU 
資料番号 PRMU2023-12 
巻番号(vol) vol.123 
号番号(no) no.30 
ページ範囲 pp.62-67 
ページ数
発行日 2023-05-11 (PRMU) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会