お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演名 2018-12-11 14:15
単語分散表現を用いたEarth Mover’s Distanceと文長の違いに基づく類似度による対訳文の自動抽出
田上 諒越前谷 博北海学園大)・荒木健治北大NLC2018-30
抄録 (和) 本報告では,対訳辞書などの高品質な対訳知識を用いることなく,コンパラブルコーパスから対訳文を自動抽出する手法を提案する.提案手法では,単語分散表現を用いて翻訳行列と類似度計算を行うことで対訳文を抽出する.その際,類似度計算にはEarth Mover’s Distanceを用いる.更に,提案手法では文長の違いを重みとして類似度に用いることで抽出精度の向上を図っている.ニュース記事のコンパラブルコーパスを用いた性能評価実験の結果,全記事の平均のF値はベースラインで0.13,EMDのみのシステムと提案手法にける文長を考慮しない場合では共に0.42,文長を考慮した場合は0.49となった.これらの結果から,文長を考慮した提案手法の有効性が確認された. 
(英) In this paper, we propose new method to automatically extract bilingual sentences from comparable corpus without high quality bilingual knowledge such as bilingual dictionary. In our proposed method, the bilingual sentences are extracted using the translation matrix and the similarity between two language sentences based on the word embeddings. In that case, the Earth Mover's Distance is used to calculate the similarity. Moreover, the weight based on the difference of lengths between two language sentences is applied to the similarity in EMD. The evaluational experiments using the news article's comparable corpus indicate that the average of F-measure of our proposed method was 0.49, those of our proposed method without the weight based on the sentence length and the method based only on EMD were respectively 0.42, and that of the method using sentence length which is the baseline was 0.13. Therefore, we confirmed the effectiveness of our proposed method using the weight based sentence length.
キーワード (和) 対訳文 / 自動抽出 / word2vec / Earth Mover’s Distance / 文長 / / /  
(英) Bilingual Sentences / Automatic Extraction / word2vec / Earth Mover’s Distance / Sentence Length / / /  
文献情報 信学技報, vol. 118, no. 355, NLC2018-30, pp. 3-8, 2018年12月.
資料番号 NLC2018-30 
発行日 2018-12-04 (NLC) 
ISSN Online edition: ISSN 2432-6380
PDFダウンロード NLC2018-30

開催期間 2018-12-10 - 2018-12-12 
開催地(和) 早稲田大学西早稲田キャンパス 
開催地(英) Waseda Univ. Nishiwaseda Campus 
テーマ(和) 第5回自然言語処理シンポジウム & 第20回音声言語シンポジウム 
テーマ(英) The 5th Natural Language Processing Symposium & The 20th Spoken Language Symposium 
申込み研究会 NLC 
会議コード 2018-12-NLC-NL-SP-SLP 
本文の言語 日本語 
タイトル(和) 単語分散表現を用いたEarth Mover’s Distanceと文長の違いに基づく類似度による対訳文の自動抽出 
タイトル(英) Automatic Extraction of Bilingual Sentences by Similarity based on Earth Mover's Distance using Word Embeddings and Difference of Sentence Length 
キーワード(1)(和/英) 対訳文 / Bilingual Sentences  
キーワード(2)(和/英) 自動抽出 / Automatic Extraction  
キーワード(3)(和/英) word2vec / word2vec  
キーワード(4)(和/英) Earth Mover’s Distance / Earth Mover’s Distance  
キーワード(5)(和/英) 文長 / Sentence Length  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 田上 諒 / Ryo Tanoue / タノウエ リョウ
第1著者 所属(和/英) 北海学園大学 (略称: 北海学園大)
Hokkai-Gakuen University (略称: Hokkai-Gakuen Univ.)
第2著者 氏名(和/英/ヨミ) 越前谷 博 / Hiroshi Echizen'ya / エチゼンヤ ヒロシ
第2著者 所属(和/英) 北海学園大学 (略称: 北海学園大)
Hokkai-Gakuen University (略称: Hokkai-Gakuen Univ.)
第3著者 氏名(和/英/ヨミ) 荒木 健治 / Kenji Araki / アラキ ケンジ
第3著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2018-12-11 14:15:00 
発表時間 30分 
申込先研究会 NLC 
資料番号 NLC2018-30 
巻番号(vol) vol.118 
号番号(no) no.355 
ページ範囲 pp.3-8 
発行日 2018-12-04 (NLC) 



IEICE / 電子情報通信学会