講演抄録/キーワード |
講演名 |
2020-09-10 15:50
chiVe: 製品利用可能な日本語単語ベクトル資源の実現へ向けて ~ 形態素解析器Sudachiと超大規模ウェブコーパスNWJCによる分散表現の獲得と改良 ~ ○久本空海・山村 崇・勝田哲弘・竹林佑斗・高岡一馬・内田佳孝(ワークスアプリケーションズ)・岡 照晃・浅原正幸(国立国語研) NLC2020-9 |
抄録 |
(和) |
事前学習された単語分散表現(単語埋め込み、単語ベクトル)は、自然言語処理において重要な言語資源である。しかし特に日本語では、実用において使い勝手の良いリソースは少ない。我々の取り組む chiVe (チャイブ)は、形態素解析器 Sudachi による複数粒度分割を活用し、100億語規模コーパス NWJC をもとに学習した単語分散表現である。この資源は商用利用可能なライセンスのもと一般公開している( https://github.com/WorksApplications/chiVe )。本稿ではその概要と、その改良へ向けた取り組み、特に、未知語対応、同義語辞書の活用、そしてドメイン適用について解説する。 |
(英) |
Pretrained word embeddings (word vectors, distributed representations) are fundamental and important components for recent neural network based natural language processing. However, there are not many resources available for Japanese language that is useful for the practical purpose. “chiVe” is our attempt to construct useful word embedding resource, using morphological analyzer “Sudachi” that provides multi-granular tokenization results, and 10 billion words scale corpus “NWJC”. We made this resource publicly available under Apache 2.0 license that allows commercial usage ( https://github.com/WorksApplications/chiVe ). In this article, we describe the overview of the project, and introduce our ongoing work to further improve the resources which includes handling Out-of-Vocabulary words, utilizing the synonym resources, and adapting to specific domains. |
キーワード |
(和) |
分散表現 / 形態素解析 / 未知語 / 同義語 / ドメイン適用 / / / |
(英) |
Distributed Representation / Morphological Analysis / Out-of-Vocabulary / Synonym / Domain Adaptation / / / |
文献情報 |
信学技報, vol. 120, no. 166, NLC2020-9, pp. 40-45, 2020年9月. |
資料番号 |
NLC2020-9 |
発行日 |
2020-09-03 (NLC) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2020-9 |