講演抄録/キーワード |
講演名 |
2014-05-15 15:15
単語ベクトルを用いた文書要約の検討 ○別所克人・西川 仁・牧野俊朗・松尾義博(NTT) LOIS2014-5 |
抄録 |
(和) |
文書要約の手法として、単語をトピックベクトルとして表現し、文や文書を構成単語のベクトルの合成として表し、文のスコアを、対象文書のベクトルとの類似度として、スコアの高い文を要約テキストとして出力する手法を検証した。テキストブロックのリストからなる文書を入力とし、話題ごとに1文ないし1語の要約テキストを出力するという制約条件下で実験を行ったところ、単語ベクトルに基づく手法は、単語スコアの和ないし平均に基づく手法よりも、高精度となったことを報告する。 |
(英) |
As a technique of document summarization, we verified a technique of expressing a word as a topic vector, and expressing a sentence and a document as a composition of the vectors of constituent words, and computing the score of a sentence based on a similarity with the vector of the subject document, and outputting a high-scored sentence as a summary text. We conducted an experiment under the constraints of inputting a document which consists of the list of text blocks, and of outputting the summary text as one sentence or one word for every topic. The results indicate that our proposed method of using a word vector achieved a higher F-score compared to the baseline technique that uses the sum or the average of a word score. |
キーワード |
(和) |
抽出的要約 / 単語ベクトル / 文書ベクトル / 重心 / / / / |
(英) |
Extraction-Based Summarization / Word Vector / Document Vector / Centroid / / / / |
文献情報 |
信学技報, vol. 114, no. 32, LOIS2014-5, pp. 51-56, 2014年5月. |
資料番号 |
LOIS2014-5 |
発行日 |
2014-05-08 (LOIS) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
LOIS2014-5 |