講演抄録/キーワード |
講演名 |
2008-09-21 17:00
[ポスター講演]接尾辞木を用いた圧縮尺度計算による効率よいスパムポスト検出手法 ○上村卓史(北大)・池田大輔(九大)・有村博紀(北大) DE2008-37 |
抄録 |
(和) |
本稿では,ブログや掲示板を対象とした内容ベースの効率よいスパムポスト検出手法を提案する.
本手法は,与えられた文書集合に対して接尾辞木を用いた確率モデル(確率接尾辞木)を構築し,
この文書集合上の推定された出現確率を利用して検出を行う.
実際のウェブ上の掲示板データを用いた計算機実験では,提案手法の有効性を示した.
特に,現在の技術では検出が比較的困難なスパムであるワードサラダに対する有効性が示された. |
(英) |
In this paper, we propose a content-based spam detection algorithm for
blog spams and bulletin board spams.
For a given document set $D$, our algorithm constructs a probabilistic model by using suffix trees,
and detects spam documents in $D$.
Experimental results showed that our algorithm performs well for detecting word salad spams,
which are believed to be difficult to detect automatically. |
キーワード |
(和) |
スパム検出 / 接尾辞木 / 出現確率推定 / / / / / |
(英) |
spam detection / suffix trees / probability estimation / / / / / |
文献情報 |
信学技報, vol. 108, no. 211, DE2008-37, pp. 15-16, 2008年9月. |
資料番号 |
DE2008-37 |
発行日 |
2008-09-14 (DE) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
DE2008-37 |