講演抄録/キーワード |
講演名 |
2007-07-03 08:25
ブログ文書集合を用いた省略語抽出手法の検討 ○関口裕一郎・佐藤吉秀・川島晴美・奥田英範(NTT) DE2007-56 |
抄録 |
(和) |
ブログの急速な普及により,人々の生の体験や経験の情報がネットワーク上で多く発信されるようになり,それを用いたブログにおける話題の抽出等のマーケティング分析のニーズが増えてきている.しかしブログ記事は口語的な表現で記述されるため,分析時に商品名等の重要な固有表現が省略して表記されることによる分析精度の低下が問題となっている.本論文では,固有表現の正式表記の一部の文字を用いて作られる省略語を自動抽出することを目指し,ブログ文書での語句の使われ方を見ることにより省略語としての確からしさを算出手法を提案し,実際のブログ文書に適応した際の有効性について論じる. |
(英) |
Many people write their experiments and impressions in their weblogs, and these articles have a much effect on buying behavior in web shopping. Thus, there are needs for mining topics in weblog articles for marketing purpose. In such mining processes, the proper noun is very important, though, many proper nouns are written in clipped word in weblogs. We describe a method to extract clipped words of the given proper noun using weblog articles that contains the original proper noun or candidates of clipped words. And evaluate the effectiveness using large weblog corpus. |
キーワード |
(和) |
省略語抽出 / ブログ分析 / データマイニング / / / / / |
(英) |
clipped word extraction / weblog / data mining / / / / / |
文献情報 |
信学技報, vol. 107, no. 131, DE2007-56, pp. 207-210, 2007年7月. |
資料番号 |
DE2007-56 |
発行日 |
2007-06-25 (DE) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
DE2007-56 |