講演抄録/キーワード |
講演名 |
2016-09-09 10:00
グループ木構造グラフを利用した人物キーワードのエンティティリンキング手法 ○苗村昌秀・宮崎 勝・浦川 真・藤沢 寛(NHK) NLC2016-21 |
抄録 |
(和) |
放送番組の情報を生活空間に活用できる放送通信連携サービスの実現を目指した研究を進めている.そのため,番組中からの情報と生活空間の情報をシームレスにつなぐ仕組みが必要になってくる.そのような仕組みを実現する技術の中核を担うのが,EPGデータや字幕などから抜き出したキーワードのエンティティを特定するエンティティリンキング技術である.そこで,本稿では,キーワードとして特に利用価値の高い人物キーワードに焦点を当て,番組中の字幕文に登場する人物キーワードをWikipedia記事の見出し語にエンティティリンキングする手法を提案する.提案手法では,Wikipedia記事に出現するキーワード間の関係をマイニングし,エンティティリンキングに利用することを基本としているが,Wikipedia内での人物キーワード間のリンク情報を解析してグループ木構造グラフを生成して,キーワードの曖昧性を軽減する手法を採用しているところが大きな特徴である.提案手法を実番組からの字幕データに適用したところ,従来手法より有意な改善が得られた. |
(英) |
We are researching fusion of broadcasting and network communication that can utilizes TV program information to living space. A key technology for effective utilization of the program related information is entity linking that links keywords extracted from EPG data or closed captions to a canonical knowledge base like Wikipedia. In this paper, we propose a method for entity linking person-related keywords appearing in closed captions of the TV program to Wikipedia page words since the person keywords have high values for evolving a new service using this entity linking results. While the basis of the proposed method consists of data-mining and modeling the relationship among various keywords appearing in Wikipedia texts, a main feature differed from conventional methods is use of group tree structured graph in disambiguating person keywords. This graph is created as a result of applying a network clustering method to a link graph generated from the link information between the two related person keywords. The experimental results shows that our proposed method is significantly superior to the conventional ones in applying them to the closed captions of real TV programs. |
キーワード |
(和) |
エンティティリンキング / ウィキペディア / グラフ処理 / グループ木 / 人物キーワード抽出 / 字幕 / / |
(英) |
Entity Linking / Wikipedia / Graph Processing / Group Tree Structure / Person keyword / Closed Caption / / |
文献情報 |
信学技報, vol. 116, no. 213, NLC2016-21, pp. 51-56, 2016年9月. |
資料番号 |
NLC2016-21 |
発行日 |
2016-09-01 (NLC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2016-21 |