講演抄録/キーワード |
講演名 |
2024-03-03 09:29
大規模マルチモーダルモデルによるPET/CT画像所見の自動生成 ○平野 靖・小能見聖弥・石田 博(山口大)・木戸尚治(阪大) MI2023-32 |
抄録 |
(和) |
本研究では、PET/CT画像に対する読影支援のための医用画像診断支援システムの開発を行うことにより、放射線科医の負担を軽減させることを目的とした。本診断支援システムでは、大規模マルチモーダルモデルの一つであるLLaVA-v1.5-7bを用いた。LLaVA-v1.5-7bは人物や風景などの画像からそれに対する説明文を生成するように学習されている。PET/CT画像と医師の画像所見とのセットを13,724組用いて、LLaVA-v1.5-7bを追加学習した。追加学習前後のモデルが生成した文章と医師の画像所見との類似度をBERTScoreによって評価した。追加学習前後のBERTScoreの平均値は0.6213、および0.6312であった。ウィルコクソンの符号順位検定を行ったところp=0.008となり、「追加学習の前後でスコアに有意差はない」という帰無仮説は棄却された。 |
(英) |
The purpose of this study was to reduce the workload of radiologists by developing a computer-aided diagnosis (CADx) system to assist in reading PET/CT images. In this system, we used LLaVA-v1.5-7b (LLaVA), a Large Multimodal Model (LMM), which is trained to generate a description from person or scenery images. PET/CT images and the radiologist's findings for these images were used for fine-tuning of LLaVA. The BERTScore was used to compare the similarity between the radiologist's findings and the sentences generated by the LLaVA before and after fine-tuning. The average BERTScores before and after fine-tuning were 0.621 and 0.631, respectively. The Wilcoxon signed-rank test was performed, and p=0.008 was obtained, indicating that "there is a significant difference in scores before and after fine-tuning. |
キーワード |
(和) |
画像所見 / 自動生成 / 大規模マルチモーダルモデル / 生成AI / / / / |
(英) |
Image findings / Automatic generation / Large multimodal model / Generative AI / / / / |
文献情報 |
信学技報, vol. 123, no. 411, MI2023-32, pp. 7-10, 2024年3月. |
資料番号 |
MI2023-32 |
発行日 |
2024-02-25 (MI) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
MI2023-32 |