講演抄録/キーワード |
講演名 |
2016-02-05 11:00
病院ブログ記事からの動詞対の抽出 ○竹内希史・徳久雅人・木村周平(鳥取大) NLC2015-50 |
抄録 |
(和) |
本稿では,病院ブログ記事コーパスから病院内の人々の行動について時間的順序関係の認められる動詞対を自動抽出する手法について提案する.抽出手法は,(a)パターンによる抽出手法,(b)確率言語モデルに基づく抽出手法,および,(c)主語の方向性に基づく抽出手法の3通りである.手法(a),(b)では動詞対の間の表現に対して,パターン,bi-gramによる制約条件をそれぞれ与えている.手法(c)では主語が「患者」よりか「医者」よりかという方向性により動詞の特徴を見出し,同一方向性の動詞の連続およびその動詞間の時間的推移を表す表現を条件としている.コーパスから条件を満たす動詞対を抽出することで順序関係のある動詞対を収集する.実験の結果,手法(c)が最も優れており,約50,000文のコーパスから正しい397件の動詞対を適合率0.353で抽出することができた. |
(英) |
This paper proposes three methods to extract pairs of verbs that mean time sequence of behaviors of people in the hospital from a corpus of blog entries about the hospital. The methods are (a) pattern-based extraction method, (b) probabilistic-model-based extraction method, and (c) subject-orientation-based extraction method.
The method (a) and (b) use constraints to expressions between verb-pairs, in patterns and in bi-gram respectively. The method (c) uses constraints of both subjective semantic orientation of verbs (i.e. tends to patiant or doctor) and conjunctive expressions that mean time transition. These methods extract time sequential verb-pairs from the corpus by those constraints. As the results of experiments, the method (c) outperforms the methods (a) and (c) with extracting 397 corretcj pairs (precision = 0.353) from about 50,000 sentences in the corpus. |
キーワード |
(和) |
テキストマイニング / 行動分析 / 順序関係 / 主語の方向性 / / / / |
(英) |
text mining / behavior analysis / order relation / semantic orientation / / / / |
文献情報 |
信学技報, vol. 115, no. 445, NLC2015-50, pp. 35-39, 2016年2月. |
資料番号 |
NLC2015-50 |
発行日 |
2016-01-28 (NLC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2015-50 |