講演抄録/キーワード |
講演名 |
2012-08-31 11:00
時系列テキストデータからのアラート情報の抽出と俯瞰 ○塚原朋哉・高梨勝敏・宮内秀彰・佐藤俊也(日立東日本ソリューションズ) NLC2012-19 |
抄録 |
(和) |
日報や雑誌・論文、Web上の書き込みなど、時系列で生成される文書群には、一定期間・頻度で現れる話題や、急に現れる話題がある。これら文書群を分析する際に、情報の時間変化を追いやすくしつつ、新規の話題の生成を抑制しないクラスタリング手法を報告する。時間軸で区切った単位でのクラスタ生成時に、過去時点のクラスタの代表的特徴語を距離計算重視語として文書間の距離計算に過去情報を反映させる。また、新規に現れた特徴語を距離計算重視語とすることにより、新規クラスタの生成を促進する。サンプルデータで検証した結果、過去の話題の流れを追いつつ、新規の話題を発見できることが示唆された。 |
(英) |
Time dependent documents (daily reports, papers/magazines, user generated web contents etc.) contain topics; some are sustained through several time-span and the others appear suddenly. We report a method to analyze both gradual transition of topics and upcoming topics. The time dependent clustering method weights not only keywords in existing clusters, but also timely keywords and encourages creating new clusters. Adopting the method to test data showed performance to visualize topic transition and discover new topics. |
キーワード |
(和) |
文書クラスタリング / 制約付きクラスタリング / 時系列 / アラート情報 / / / / |
(英) |
Document Clustering / Constrained Clustering / Temporal Information / Alert Information / / / / |
文献情報 |
信学技報, vol. 112, no. 196, NLC2012-19, pp. 49-53, 2012年8月. |
資料番号 |
NLC2012-19 |
発行日 |
2012-08-23 (NLC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2012-19 |