講演抄録/キーワード |
講演名 |
2015-02-05 13:00
固有ベクトル法による類似文書抽出 ○加藤翔子・斉藤和巳(静岡県立大)・風間一洋(和歌山大) NLC2014-46 |
抄録 |
(和) |
本稿では,文書単語類似度行列の固有ベクトルを求めることで,大規模文書群から類似文書を抽出する.
より詳細には,ネットワークのコア部抽出法であるSpectral-Relaxation (SR) 法を拡張したWeighted-SR (WSR) 法を提案し,
さらにLSA法やMDS法を土台として変形させたLSA-WSR法,MDS-WSR法を考える.
Yahoo!ニュースのデータセットを用いた評価実験で,各手法の抽出結果を比較し,
複数の話題が混在したコア部の存在や,同じ話題が複数コア部に分かれて抽出されることを示す.
また,任意のパラメータ$eta$を大きくすることで抽出文書数が小さくなり,
より類似した文書群の絞り込みが可能となることも明らかにする. |
(英) |
In this paper, we extract some similar documents from large number of text documents
by calculating eigenvector of document-term similarlity matrices.
Namely, we propose a Weighted-SR (WSR) method based on the Spectral-Relaxation (SR) method.
The SR method is one of core extraction methods of complex networks.
We also consider LSA-WSR and MDS-WSR methods based on LSA and MDS.
In our experiments using a text document dataset from Yahoo! News,
we demonstrate that these methods extract documents which consist of mixed topics
and split one topic into some core portions.
We also show that the number of extracted documents is decreased
and similar documents narrowed down
by increasing $eta$ which is an arbitrary parameter. |
キーワード |
(和) |
文書抽出 / コア部分析 / 固有ベクトル / トピック抽出 / / / / |
(英) |
Documents Extraction / Core Analysis / Eigenvector / Topic Extraction / / / / |
文献情報 |
信学技報, vol. 114, no. 444, NLC2014-46, pp. 11-16, 2015年2月. |
資料番号 |
NLC2014-46 |
発行日 |
2015-01-29 (NLC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
査読に ついて |
本技術報告は査読を経ていない技術報告であり,推敲を加えられていずれかの場に発表されることがあります. |
PDFダウンロード |
NLC2014-46 |