講演抄録/キーワード |
講演名 |
2007-05-31 15:00
軽量のテキスト処理による部分類似単語列検出方法 ○竹田隆治(総研大)・高須淳宏(NII) AI2007-7 |
抄録 |
(和) |
同一の話題に関して書かれた文書中には類似した表現や文字列が頻出する。完全に同一の文字列であ
れば、検索用インデックス作成手法などでそれらがどこに出現したかを特定することは容易だが、部分的に違う単
語や違う表現などが含まれるとそれらは完全に別のものとして扱われる。既存の曖昧検索などではユーザがクエリ
ーを与え、システムがそれに対するレスポンスを返すのであるが、本研究では任意のコーパスに対して、どの部分
とどの部分が類似しているのかのマッピングを行う。 |
(英) |
Similar expression and character string appear frequently during documents written about the same topic. It is easy
to identify where they appeared by indexing for searches, if those are the perfect matching string, but they are taken aside when
a string is different partially or includes different expression. Usually query is given by user in approximate pattern matching,
the system only finds most suitable document, however we would propose the mapping method that which part and which part
resemble self-organizing in this study. |
キーワード |
(和) |
テキストマイニング / 類似単語列検出 / 接尾辞配列 / 曖昧性 / / / / |
(英) |
text-mining / Similarity Sequences extracting / Suffix arrays / ambiguity / / / / |
文献情報 |
信学技報, vol. 107, no. 78, AI2007-7, pp. 33-38, 2007年5月. |
資料番号 |
AI2007-7 |
発行日 |
2007-05-24 (AI) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
AI2007-7 |