講演抄録/キーワード |
講演名 |
2015-02-05 12:10
上位下位関係からのインスタンス集合の獲得 ○山田一郎・宮﨑太郎・宮崎 勝・三浦菊佳・松井 淳・田中英輝(NHK) NLC2014-44 |
抄録 |
(和) |
大規模のテキストから情報抽出を行う際、あるクラスに属するインスタンス集合のデータが有用となる。例えば、「病気」と「薬」のクラスに属するインスタンス集合があれば、それらの単語の文中共起を手掛かりとして特定の病気に効く薬を抽出することができる。既存のシソーラスでは十分な量のインスタンスが登録されておらず、また、WikipediaのクラスなどのWeb上のリソースをそのまま利用するとノイズが大量に含まれてしまう。本稿では、Wikipediaから抽出したノイズの含まれる上位下位関係を利用して、任意のクラスに対するインスタンス集合を大規模かつ高精度に獲得する手法を提案する。獲得したインスタンス集合を利用した単語間意味的関係獲得実験についても報告する。 |
(英) |
Class-instance relation is useful for information extraction from large volume of text. For example, we can determine which medicine is effective for a sickness by co-occurrence information of instances of medicine and sickness. It is possible to acquire instances of a class from a legacy thesaurus but sufficient amount of instance is not registered in such thesaurus. In this paper, we propose a method for class-instance acquisition from hyponymy relations which automatically extracted from Wikipedia and contain some error relations. We can acquire a large volume of instances with higher accuracy by using two kinds of noise reduction approaches. We report a semantic relation acquisition using automatically extracted class-instance relations. |
キーワード |
(和) |
インスタンス獲得 / 上位下位関係 / 意味的関係 / / / / / |
(英) |
Class-instance acquisition / hyponymy relation / semantic relation of words / / / / / |
文献情報 |
信学技報, vol. 114, no. 444, NLC2014-44, pp. 1-6, 2015年2月. |
資料番号 |
NLC2014-44 |
発行日 |
2015-01-29 (NLC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
査読に ついて |
本技術報告は査読を経ていない技術報告であり,推敲を加えられていずれかの場に発表されることがあります. |
PDFダウンロード |
NLC2014-44 |