講演抄録/キーワード |
講演名 |
2006-09-15 13:30
決定木アルゴリズムに基づく自然言語文書の話題分析 ○古畑裕介・西園敏弘(日大) CQ2006-54 OIS2006-41 IE2006-56 |
抄録 |
(和) |
大量の文書から同一の話題を含んだ文書集合を抽出することを試みる.決定木により元の文書を分類し,その結果から決定木の構造と分類された文書の特徴との間の関係を分析している.決定木のリーフにおける分類精度に着目した結果,1つの名詞や2つの名詞の組み合わせが文書中に出現することにより高確率で分野を特定できることを明らかにし,数10個の該当する名詞群を抽出している.また,リーフ内文書の類似度やエントロピーを用いて,それらの名詞がどの程度話題を特定しているかを調べ,多くの名詞が話題を抽出できていることを確認している.今回の試みで得られた話題だけでは,新しい通信サービスへの応用には不十分ではあるが,決定木の上位階層や分類性能の良い部分のみを用いれば,より適用性が高い話題が抽出できる可能性が示唆されている. |
(英) |
This paper attempts to extract specific document sets containing the same topic from masses of documents. The original documents are classified through a decision tree and the classification results are analyzed with the decision tree structure. Focusing on classification accuracy in each of decision tree leaves, the analysis yields several tens of specified nouns and pairs of nouns, of which existence identifies the class of each document. Then, topic identification ability of the nouns is ascertained using similarity and entropy of documents in each leaf. As a result, most of the nouns can specify document topics. The resulting topics are not sufficient for applying to new communication services. However, several parts of the decision tree can indicate efficient extraction of topic. |
キーワード |
(和) |
決定木 / 文書分類 / 通信サービス / テキストマイニング / / / / |
(英) |
Decision Tree / Document Classification / Communication Services / Text Mining / / / / |
文献情報 |
信学技報, vol. 106, 2006年9月. |
資料番号 |
|
発行日 |
2006-09-08 (CQ, OIS, IE) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
CQ2006-54 OIS2006-41 IE2006-56 |
研究会情報 |
研究会 |
IE CQ LOIS ITE-ME IEE-CMN |
開催期間 |
2006-09-14 - 2006-09-15 |
開催地(和) |
愛媛大学 |
開催地(英) |
|
テーマ(和) |
オフィスにおけるマルチメディア通信、IP放送/映像サービスの品質および一般 |
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
LOIS |
会議コード |
2006-09-IE-CQ-OIS-ITE-ME-IEE-CMN |
本文の言語 |
日本語 |
タイトル(和) |
決定木アルゴリズムに基づく自然言語文書の話題分析 |
サブタイトル(和) |
|
タイトル(英) |
Topic analysis of natural language documents based on decision tree algorithm |
サブタイトル(英) |
|
キーワード(1)(和/英) |
決定木 / Decision Tree |
キーワード(2)(和/英) |
文書分類 / Document Classification |
キーワード(3)(和/英) |
通信サービス / Communication Services |
キーワード(4)(和/英) |
テキストマイニング / Text Mining |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
古畑 裕介 / Yusuke Furuhata / フルハタ ユウスケ |
第1著者 所属(和/英) |
日本大学大学院 (略称: 日大)
Nihon University Graduate School (略称: Nihon Univ.) |
第2著者 氏名(和/英/ヨミ) |
西園 敏弘 / Toshihiro Nishizono / ニシゾノ トシヒロ |
第2著者 所属(和/英) |
日本大学 (略称: 日大)
Nihon University (略称: Nihon Univ.) |
第3著者 氏名(和/英/ヨミ) |
/ / |
第3著者 所属(和/英) |
(略称: )
(略称: ) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2006-09-15 13:30:00 |
発表時間 |
25分 |
申込先研究会 |
LOIS |
資料番号 |
CQ2006-54, OIS2006-41, IE2006-56 |
巻番号(vol) |
vol.106 |
号番号(no) |
no.240(CQ), no.242(OIS), no.244(IE) |
ページ範囲 |
pp.23-28 |
ページ数 |
6 |
発行日 |
2006-09-08 (CQ, OIS, IE) |
|