講演抄録/キーワード |
講演名 |
2023-06-30 14:20
生物学的パスウェイを用いたBioConceptVecにおけるアナロジータスク ○山際宏明・橋本竜馬(京大)・荒金 究・村上 賢(阪大)・大山百々勢・下平英寿(京大)・岡田眞里子(阪大) NC2023-18 IBISML2023-18 |
抄録 |
(和) |
自然言語処理は様々な応用分野で利用されており,skip-gramなどのモデルを用いてテキスト中の単語を埋め込みと呼ばれる特徴ベクトルに変換することが一般的である.近年,生物学の分野でも自然言語処理の有用性が注目されており,概念の正規化を施した約3000万件のPubMed abstractsから学習したBioConceptVecが提案されている.一般にskip-gramでは単語の埋め込みを加減算することによりアナロジータスクが解けるとされており,例えば$text{king} - text{man} + text{woman}$から$text{queen}$を予測できる.本研究では生物学的パスウェイの種類を関係性とみなし,薬剤と遺伝子の組についてアナロジータスクの実験を行った.その結果,同じパスウェイに属する薬剤と遺伝子の組についてパスウェイの関係性を表すベクトルを定義することで,アナロジータスクの高い精度が確認された. |
(英) |
Natural language processing (NLP), often employing models like skip-gram, is widely utilized across numerous application domains to convert words in text into feature vectors known as word embeddings. The utility of this approach has recently been noted in the field of biology, with the introduction of BioConceptVec, a model trained on about 30 million PubMed abstracts using normalized concepts. In general, skip-gram can solve analogy tasks by manipulating word embeddings, such as predicting $emph{text{queen}}$ from $emph{text{king}} - emph{text{man}} + emph{text{woman}}$. In this study, we applied this principle to biological pathways, conducting analogy tasks for pairs of drugs and genes, treating pathway types as relationships. Our results demonstrated high accuracy in these tasks when defining a vector to represent the pathway relationship for pairs of drugs and genes that belong to the same pathway. |
キーワード |
(和) |
自然言語処理 / 分散表現 / 単語埋め込み / アナロジー / 生物学 / PubMed / / |
(英) |
natural language processing / distributed representations / word embeddings / analogy / Biology / PubMed / / |
文献情報 |
信学技報, vol. 123, no. 91, IBISML2023-18, pp. 113-120, 2023年6月. |
資料番号 |
IBISML2023-18 |
発行日 |
2023-06-22 (NC, IBISML) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2023-18 IBISML2023-18 |
|