講演抄録/キーワード |
講演名 |
2023-03-14 16:55
機械学習システムのデータセット自動収集・整形技術 ○川口貴子・倉林利行・丹野治門(NTT) SS2022-57 |
抄録 |
(和) |
近年の機械学習モデルの大規模化に伴い,学習に必要となるデータ量も増加傾向である.そのため学習データをWeb上の豊富な情報資源から収集するユーザが増えている.しかしWebページには様々な画面構成が存在し,構成の違いによりデータの存在する位置も大きく異なる.そのため複数の画面構成の異なるWebページから一度に類似の情報を抽出する場合,画面構成ごとに抽出箇所の設定や例示を行う必要があった.そこで本研究ではWebページの画面構成の違いによらず類似のデータを抽出可能な技術を提案する.提案手法ではユーザは抽出したいデータとそのデータが存在するWebページの少量の例を示すだけで,画面構成の異なる複数のWebページから所望のデータを取得することができる.これは入出力例で示す抽出したいデータについて,文字列の類似性とデータが存在する部分的な位置を考慮することで,Webページ全体の画面構成の違いを吸収することができるためである.また提案手について評価実験を行い,例示するWebページと画面構成が異なる複数のWebページから同様にデータを抽出できることを示す. |
(英) |
In recent years, as machine learning models have become larger and larger, the scale of data required for training has also been increasing. For this reason, more and more users are collecting training data from the abundant information resources on the web. However, web pages have a variety of screen configurations, and the location of data varies greatly depending on the configuration. Therefore, when extracting similar information from multiple Web pages with different screen configurations at once, it is necessary to set the extraction location for each screen configuration and provide examples. In this paper, we propose a technique that can extract similar data regardless of the differences in screen configurations of web pages. The proposed model allows users to retrieve desired data from multiple web pages with different screen configurations by simply indicating the data to be extracted and few examples of web pages on which the data resides. This is because the model takes into account the similarity of the text strings of data extracted in the input-output examples and the partial locations where the data exists, thereby limiting the impact of differences in the screen configuration of the entire Web page. In addition, we conducted evaluation experiments on the proposed model and showed that it can extract targets from multiple web pages with different screen configurations from the example web page. |
キーワード |
(和) |
機械学習工学 / 機械学習 / Webスクレイピング / クローリング / データ収集 / 正規表現 / データ抽出 / 情報抽出 |
(英) |
Machine Learning Engineering / Machine Learning / Web Scraping / Crawling / Data Collection / Regular Expressions / Data Extraction / Information Extraction |
文献情報 |
信学技報, vol. 122, no. 432, SS2022-57, pp. 61-66, 2023年3月. |
資料番号 |
SS2022-57 |
発行日 |
2023-03-07 (SS) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SS2022-57 |