お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2023-03-14 16:55
機械学習システムのデータセット自動収集・整形技術
川口貴子倉林利行丹野治門NTTSS2022-57
抄録 (和) 近年の機械学習モデルの大規模化に伴い,学習に必要となるデータ量も増加傾向である.そのため学習データをWeb上の豊富な情報資源から収集するユーザが増えている.しかしWebページには様々な画面構成が存在し,構成の違いによりデータの存在する位置も大きく異なる.そのため複数の画面構成の異なるWebページから一度に類似の情報を抽出する場合,画面構成ごとに抽出箇所の設定や例示を行う必要があった.そこで本研究ではWebページの画面構成の違いによらず類似のデータを抽出可能な技術を提案する.提案手法ではユーザは抽出したいデータとそのデータが存在するWebページの少量の例を示すだけで,画面構成の異なる複数のWebページから所望のデータを取得することができる.これは入出力例で示す抽出したいデータについて,文字列の類似性とデータが存在する部分的な位置を考慮することで,Webページ全体の画面構成の違いを吸収することができるためである.また提案手について評価実験を行い,例示するWebページと画面構成が異なる複数のWebページから同様にデータを抽出できることを示す. 
(英) In recent years, as machine learning models have become larger and larger, the scale of data required for training has also been increasing. For this reason, more and more users are collecting training data from the abundant information resources on the web. However, web pages have a variety of screen configurations, and the location of data varies greatly depending on the configuration. Therefore, when extracting similar information from multiple Web pages with different screen configurations at once, it is necessary to set the extraction location for each screen configuration and provide examples. In this paper, we propose a technique that can extract similar data regardless of the differences in screen configurations of web pages. The proposed model allows users to retrieve desired data from multiple web pages with different screen configurations by simply indicating the data to be extracted and few examples of web pages on which the data resides. This is because the model takes into account the similarity of the text strings of data extracted in the input-output examples and the partial locations where the data exists, thereby limiting the impact of differences in the screen configuration of the entire Web page. In addition, we conducted evaluation experiments on the proposed model and showed that it can extract targets from multiple web pages with different screen configurations from the example web page.
キーワード (和) 機械学習工学 / 機械学習 / Webスクレイピング / クローリング / データ収集 / 正規表現 / データ抽出 / 情報抽出  
(英) Machine Learning Engineering / Machine Learning / Web Scraping / Crawling / Data Collection / Regular Expressions / Data Extraction / Information Extraction  
文献情報 信学技報, vol. 122, no. 432, SS2022-57, pp. 61-66, 2023年3月.
資料番号 SS2022-57 
発行日 2023-03-07 (SS) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード SS2022-57

研究会情報
研究会 SS  
開催期間 2023-03-14 - 2023-03-15 
開催地(和) 名護市産業支援センター 
開催地(英)  
テーマ(和) ソフトウェアサイエンスおよび一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 SS 
会議コード 2023-03-SS 
本文の言語 日本語 
タイトル(和) 機械学習システムのデータセット自動収集・整形技術 
サブタイトル(和)  
タイトル(英) Automatic Dataset Collection and Formatting Techniques for Machine Learning Systems 
サブタイトル(英)  
キーワード(1)(和/英) 機械学習工学 / Machine Learning Engineering  
キーワード(2)(和/英) 機械学習 / Machine Learning  
キーワード(3)(和/英) Webスクレイピング / Web Scraping  
キーワード(4)(和/英) クローリング / Crawling  
キーワード(5)(和/英) データ収集 / Data Collection  
キーワード(6)(和/英) 正規表現 / Regular Expressions  
キーワード(7)(和/英) データ抽出 / Data Extraction  
キーワード(8)(和/英) 情報抽出 / Information Extraction  
第1著者 氏名(和/英/ヨミ) 川口 貴子 / Takako Kawaguchi / カワグチ タカコ
第1著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
Nippon Telegraph and Telephone Corporation (略称: former NTT)
第2著者 氏名(和/英/ヨミ) 倉林 利行 / Toshiyuki Kurabayashi / クラバヤシ トシユキ
第2著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
Nippon Telegraph and Telephone Corporation (略称: former NTT)
第3著者 氏名(和/英/ヨミ) 丹野 治門 / Haruto Tanno / タンノ ハルト
第3著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
Nippon Telegraph and Telephone Corporation (略称: former NTT)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2023-03-14 16:55:00 
発表時間 25分 
申込先研究会 SS 
資料番号 SS2022-57 
巻番号(vol) vol.122 
号番号(no) no.432 
ページ範囲 pp.61-66 
ページ数
発行日 2023-03-07 (SS) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会