講演抄録/キーワード |
講演名 |
2020-03-03 11:20
ニューラル機械翻訳システムに対する敵対的攻撃 ○坂本岳史・森 達哉(早大) ICSS2019-89 |
抄録 |
(和) |
ニューラルネットワークを搭載するシステムには,正当な入力に微小な摂動を加えた悪意ある入力 (Adversarial Example)を印加することにより,意図的に誤動作が引き起こされる脆弱性が指摘されている.本研究では,ニューラル機械翻訳システムを標的とし,微小な摂動を加えた文 (敵対的文) を翻訳機に入力することにより,翻訳後の意味を変化させる攻撃を提案する.また,提案した攻撃の実現可能性評価と,有効な対策手法の検討を行う. 本攻撃により,契約文書,商品のレビュー,政治家や有識者のSNS投稿など,人の意思決定に影響を与える文書を機械翻訳した際に,文書の意味やニュアンスが意図的に制御されるリスクが生じる.本研究では,機械翻訳システムとして広く使われているGoogle翻訳を対象とし,日常的に使用する基本的な文データを基に作成した敵対的文の意味変更率を評価する.実験の結果,55%の文に対し,翻訳後の意味を変化させることに成功した.これはテキスト分類を対象とした既存の敵対的入力生成手法と比較しても良好な成功率である. |
(英) |
It has been widely known that systems empowered by neural network algorithms are vulnerable against an intrinsic attack named ``adversarial example'', which can be generated by adding small perturbations to the original inputs, aiming at fooling the systems. In this paper, we target Neural Machine Translation (NMT) and present attacks that change the meaning of sentences by adding small perturbations to the translated sentences (Adversarial text). This attack can intentionally control the nuance of meanings for documents such as contracts, products, reviews and postings to SNS by politicians or experts, which may play a vital role in making a decision.
In this work, we adopt Google translate as a widely used NMT system and apply our attack using common sentences to study the effectiveness of the attack. We demonstrate that the meaning of sentences could be changed by 55% and the success rate is higher than the existing methods that target text classification applications. |
キーワード |
(和) |
Adversarial Example / ニューラル機械翻訳 / ホモグリフ / / / / / |
(英) |
Adversarial Example / Neural Machine Translation / Homoglyph / / / / / |
文献情報 |
信学技報, vol. 119, no. 437, ICSS2019-89, pp. 125-130, 2020年3月. |
資料番号 |
ICSS2019-89 |
発行日 |
2020-02-24 (ICSS) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
ICSS2019-89 |