講演抄録/キーワード |
講演名 |
2014-06-15 13:00
機械学習に基づく異言語文間の意味的類似度の計算 ○羅 文涛・林 良彦(阪大) NLC2014-16 |
抄録 |
(和) |
近年,*SEM タスクなどにおいて,文の単位での意味的類似度を求める手法が議論されている.これらのタスクでは,単言語の文の間の意味的類似度が議論されてきたが,本研究では,異言語文間の意味的類似度の計算手法を提案・評価する.提案手法は,最初に対訳辞書,または,機械翻訳により言語横断処理を行い,次に単言語の意味的類似度を機械学習に基づき予測する.英語,日本語,中国語を対象とする評価実験では,場合によっては,英語の単言語のタスクと比べて遜色のない精度が得られており,提案手法の有効性が確認された.一方で,同義語・同義表現の認識や言語間の構文構造の相違に対処する必要性も明らかとなった. |
(英) |
This paper proposes a method to compute cross-lingual semantic textual similarities between sentences in different languages. The method is based on a machine-learning approach, which employs several monolingual similarity features chiefly proposed by projects participated in the *SEM STS (Semantic Textual Similarity) task. To utilize the monolingual features in a cross-lingual setting, we tested two methods to cross language borders: one utilizes bilingual dictionaries and the other employs off-the-shelf machine-translation engines. While our experimental results demonstrated such a translate then monolingual similarity method was reasonably effective in cross-lingual STS for English, Japanese, and Chinese, it has also been insisted that syntactic/structural differences have to be incorporated into the machine-learning based framework. |
キーワード |
(和) |
意味的テキスト類似度 / 言語横断類似度 / 機械学習 / 機械翻訳 / / / / |
(英) |
semantic textual similarities / cross-lingual similarities / machine learning / machine translation / / / / |
文献情報 |
信学技報, vol. 114, no. 81, NLC2014-16, pp. 85-90, 2014年6月. |
資料番号 |
NLC2014-16 |
発行日 |
2014-06-07 (NLC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2014-16 |