講演抄録/キーワード |
講演名 |
2023-03-17 13:30
Sentence-BERTで生成される文ベクトルを用いた類義語間の類似性の調査 ○泉 諒音・神野健哉(東京都市大) MSS2022-101 NLP2022-146 |
抄録 |
(和) |
Sentence-BERTによって出力される文ベクトルは768次元である。この768次元は単語ごとに完全に分断できないもののある程度分かれている。そこで本研究では似た意味を持つ文章や、同じ単語を含む文章を入力した際に出力される文ベクトルの各次元がどのくらい似ているのか、単語を分散表現にした際では近い値を取っていた単語を文章に埋め込み文ベクトルを出力した際、文ベクトル内の対象の単語を表す次元はどのように変化したのかを調査する。 |
(英) |
The sentence vector output by Sentence-BERT has 768 dimensions. These 768 dimensions cannot be completely divided into words, but they are divided to some extent. In this study, we investigate how similar each dimension of the output sentence vector is when sentences with similar meanings or sentences containing the same words are inputted, and how the dimension representing the target word in the sentence vector changes when the sentence vector is output by embedding words that had similar values in the distributed representation of the words in the sentences. |
キーワード |
(和) |
Sentence-BERT / UMAP / 文ベクトル / 潜在変数 / / / / |
(英) |
Sentence-BERT / UMAP / Sentence Vector / Latent Variable / / / / |
文献情報 |
信学技報, vol. 122, no. 436, NLP2022-146, pp. 182-185, 2023年3月. |
資料番号 |
NLP2022-146 |
発行日 |
2023-03-08 (MSS, NLP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
MSS2022-101 NLP2022-146 |