講演抄録/キーワード |
講演名 |
2012-12-19 16:20
Twitter上の「おはよう」を例とした崩れた異表記の認識 ○藤沼祥成(東大)・横野 光(NII)・Pascual Martinez-Gomez・相澤彰子(東大/NII) NLC2012-39 |
抄録 |
(和) |
近年 Twitter を始めとする Consumer Generated Media (CGM) の発展により、正式な表記でないもの、いわゆる崩れた表記が増加してきた。特に日本語を処理する時に前処理として分かち書きを必要とするが、このような崩れた表記に対しては現在の自然言語処理ツールは対応できていない。本論文においては一つの単語、「おはようございます」に注目し、Conditional Random Field (CRF) を用いて崩された「おはようございます」を抽出した。また、「おはよう」がどのようなルールにて正式な表記から崩れた表記に変化するかを追究した。実験では「おはよう」に相当する部分の抽出と「おはようございます」に相当する全体の抽出を行った。実験の結果、共に 0.91 を超える F1 値で抽出できた。また「おはよう」に相当する部分に対しては「おはよう」からどのように変換されたかのルール抽出を行い、JUMAN7.0 にないルールを抽出できた。 |
(英) |
Recently, the rapid growth of Consumer Generated Media (CGM) such as Twitter introduced much expressive variations and informal representations into textual resources. Although word segmentation is the first step in most Japanese language applications, current word segmentation tools are not sufficiently adapted to such informal text yet. In this paper, we focus on a most frequent phrase expression in Japanese morning twitter, “おはようございます”, and construct a CRF-based extractor of the variations. Using 500 manually annotated samples, we obtain F1 score of over 0.91 for both the head span (“おはよう”) and the entire span (including the attachment part such as “ございます”). We also show that the extracted variations contain normalization pattern which are not defined in JUMAN 7.0. |
キーワード |
(和) |
崩れた表記 / ルール抽出 / Twitter / CRF / / / / |
(英) |
Informal text / Rule extraction / Twitter / CRF / / / / |
文献情報 |
信学技報, vol. 112, no. 367, NLC2012-39, pp. 35-40, 2012年12月. |
資料番号 |
NLC2012-39 |
発行日 |
2012-12-12 (NLC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2012-39 |