講演抄録/キーワード |
講演名 |
2018-09-07 13:35
文学テキストの計量分析のための解釈に重点を置いた特徴量の検討 ○渡辺 隼・横井 健(都立産技高専) NLC2018-21 |
抄録 |
(和) |
文学テキストの計量分析にはタスクに応じて様々な特徴量が用いられる.そのうち,テキストの解釈を目的としたタスクにおいては,分析結果を容易に解釈できること,テキストの多面的な性質を捉えることを両立するような特徴量の生成が困難であるという問題がある.本研究では,複数の特徴量,およびそれらの組み合わせ特徴量について比較を行い,特徴量の組み合わせによってこの問題を解決する方法について検討した.解釈に重点を置いた特徴量として,文体的な特徴量,単語のカテゴリにもとづく特徴量,モダリティにもとづく特徴量とそれらの組み合わせ特徴量に着目し,それらの特徴量を用いてテキストの著者に対する線形判別分析(LDA)による分析を行うことで,このアプローチの有効性を確認した. |
(英) |
Various features are used for metrical analysis of literary text, which are depending on the task. In tasks aim at interpreting texts, there are two issues such as: 1) making it easy to interpret the analysis results, 2) grasping the multifaceted nature of the text. However, it is difficult to make those issues compatible. In this research, we compare several features and their combination features, and examined ways to solve above‐mentioned difficulty by combining features.We evaluated Stylometry-based features, thesaurus-based features, modalities-based features, and their combination features on author identification task using Linear Discriminant Analysis, and then demonstrated the effectiveness of this approach. |
キーワード |
(和) |
テキストマイニング / 特徴量 / 計量文献学 / / / / / |
(英) |
Text mining / Features / Stylometry / / / / / |
文献情報 |
信学技報, vol. 118, no. 210, NLC2018-21, pp. 79-84, 2018年9月. |
資料番号 |
NLC2018-21 |
発行日 |
2018-08-30 (NLC) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2018-21 |