講演抄録/キーワード |
講演名 |
2023-03-18 11:05
生成型Low-resouce固有表現認識における固有表現クラス分散表現の推定法 ○澤田悠冶(奈良先端大)・寺西裕紀(理研)・大内啓樹(奈良先端大)・松本裕治(理研)・渡辺太郎(奈良先端大) NLC2022-22 |
抄録 |
(和) |
固有表現認識では、ユーザが設計する新規の固有表現クラスに対してより少量の事例で抽出することが求められる。外部資源を用いて事前に学習することで、固有表現の出現パターンや新規の固有表現クラスの意味情報を獲得する手法が提案されているものの、これらの手法は系列ラベリングやスパンベースに基づいているため入れ子・不連続なスパンに対応できない問題がある。本研究では、生成型事前言語モデルを少数事例で直接 Fine-tuning する生成型固有表現認識モデルを考え、固有表現クラスの定義文を用いたラベル分散表現の活用法を提案する。既存固有表現認識データセットから少量のサンプルを作成して実験を行った結果、定義文を用いたラベル分散表現によって少数事例での抽出性能が向上し、複雑なスパンに対しても柔軟に抽出可能であることを確認した。 |
(英) |
Named entity recognition (NER) system needs to identify the entities of novel entity types with fewer examples. Few-shot NER systems can capture useful knowledge from external resources, but identifying the nested and discontinuous span is still challenging because their methods are based on sequence labeling and span-based method. We aim for a low-resource generative NER model corresponding to the complex span and propose utilizing methods that use label representation by the novel type's descriptions. Experiments show that the proposed methods achieve competitive performances in few-shot scenarios, and can extract complex spans with limited samples. |
キーワード |
(和) |
固有表現認識 / ファインチューニング / Few-shot学習 / 定義文 / 入れ子 / 不連続 / / |
(英) |
Named Entity Recognition / Fine-tuning / Few-shot learning / Description / Nested / Discontinuous / / |
文献情報 |
信学技報, vol. 122, no. 449, NLC2022-22, pp. 16-21, 2023年3月. |
資料番号 |
NLC2022-22 |
発行日 |
2023-03-11 (NLC) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2022-22 |