お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2023-12-21 15:25
単語埋め込み選択を伴う木構造ワッサースタイン距離
大田尾 匠京大)・山田 誠沖縄科技大IBISML2023-38
抄録 (和) ワッサースタイン距離は最適輸送問題を解くことで計算でき、分布間の距離を測るための強力な手法である。自然言語処理の分野では、文書を単語の集合から構成される分布として捉え、文書間の非類似度を測る単語運搬距離(word mover's distance)として用いられている。ワッサースタイン距離の重要な課題の一つは、距離計算においてデータ数に対して三乗時間を必要とするため、その計算コストである。シンクホーンアルゴリズムはワッサースタイン距離の計算を高速化する強力なツールであるが、それでも二乗時間を必要とする。近年、ワッサースタイン距離の線形時間での近似法として、スライスワッサースタイン距離や木構造ワッサースタイン距離が提案されている。しかし、入力ベクトルの次元が高い場合、これらの線形時間近似法は次元の呪いに直面する。本研究では、特徴選択と木構造ワッサースタイン距離を組み合わせることで、高次元問題に対処し、かつ高速に文書間の距離を計算する手法を提案する。
具体的には、複数の単語埋め込みを結合し、結合埋め込みの中からグループ特徴選択を用いて、木構造ワッサースタイン距離において有用な単語埋め込みを自動的に選択する。
そのために、各単語埋め込みのワッサースタイン距離を木で近似し、エントロピー正則化付き最大化問題を解くことにより、識別性の高い(すなわち、ワッサースタイン距離が大きい)単語埋め込みを選択する。人工データを用いた実験を通して、提案手法における特徴選択の有効性を確認した。また、文書分類の実験を通して、提案手法は結合埋め込みを直接使用するよりも優れた性能を示し、全てのデータセットにおいて高い性能を達成した。 
(英) Wasserstein distance, which can be computed by solving the optimal transport problem, is a powerful method for measuring the distance between distributions. In the NLP community, it is referred as word mover's distance to measure dissimilarity between documents, treating documents as word distributions. One of the key challenges of Wasserstein distance is its computational cost since it needs cubic time. Although the Sinkhorn algorithm is a powerful tool to speed up to compute the Wasserstein distance, it still requires square time. Recently, a linear time approximation of the Wasserstein distance including the sliced Wasserstein and the tree-Wasserstein distance has been proposed. However, the linear time approximation method suffers when the dimensionality of input vectors is high. In this study, we propose a method to combine feature selection and tree approximation of Wasserstein distance to handle high-dimensional problems and compute dissimilarity between documents rapidly. More specifically, we concatenate multiple word embeddings and automatically select useful word embeddings from a concatenated embedding in a tree approximation of Wasserstein distance. To this end, we approximate Wasserstein distance for each word vector by tree approximation technique, and select the discriminative (i.e., large Wasserstein distance) word embeddings by solving an entropic regularized maximization problem. Through our synthetic experiments, we confirmed the efficacy of feature selection in our proposed method. Through our experiments on document classification, our proposed method outperformed the method that directly uses the concatenated embedding and achieved consistently high performance on all datasets.
キーワード (和) 最適輸送 / グループ特徴選択 / 文書分類 / 単語埋め込み / / / /  
(英) Optimal Transport / Group Feature Selection / Document Classification / Word Embedding / / / /  
文献情報 信学技報, vol. 123, no. 311, IBISML2023-38, pp. 50-57, 2023年12月.
資料番号 IBISML2023-38 
発行日 2023-12-13 (IBISML) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード IBISML2023-38

研究会情報
研究会 IBISML  
開催期間 2023-12-20 - 2023-12-21 
開催地(和) 国立情報学研究所 
開催地(英) National Institute of Informatics 
テーマ(和) 機械学習一般 
テーマ(英) machine learning, etc. 
講演論文情報の詳細
申込み研究会 IBISML 
会議コード 2023-12-IBISML 
本文の言語 英語(日本語タイトルあり) 
タイトル(和) 単語埋め込み選択を伴う木構造ワッサースタイン距離 
サブタイトル(和)  
タイトル(英) A linear time approximation of Wasserstein distance with word embedding selection 
サブタイトル(英)  
キーワード(1)(和/英) 最適輸送 / Optimal Transport  
キーワード(2)(和/英) グループ特徴選択 / Group Feature Selection  
キーワード(3)(和/英) 文書分類 / Document Classification  
キーワード(4)(和/英) 単語埋め込み / Word Embedding  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 大田尾 匠 / Sho Otao / オオタオ ショウ
第1著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第2著者 氏名(和/英/ヨミ) 山田 誠 / Makoto Yamada / ヤマダ マコト
第2著者 所属(和/英) 沖縄科学技術大学院大学 (略称: 沖縄科技大)
Okinawa Institute of Science and Technology (略称: OIST)
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2023-12-21 15:25:00 
発表時間 25分 
申込先研究会 IBISML 
資料番号 IBISML2023-38 
巻番号(vol) vol.123 
号番号(no) no.311 
ページ範囲 pp.50-57 
ページ数
発行日 2023-12-13 (IBISML) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会