講演抄録/キーワード |
講演名 |
2020-09-10 13:30
通信効率の高い分散深層学習を実現するGPU-FPGAヘテロコンピューティング ○田仲顕至・有川勇輝・伊藤 猛・森田和孝・根本 成・三浦史光・寺田和彦・寺本純司・坂本 健(NTT) RECONF2020-19 |
抄録 |
(和) |
分散深層学習において、学習結果のGPU間での共有に用いられる集団通信(Allreduce)は大きなボトルネックになる。提案システムでは、Allreduce機能を備えたネットワークインターフェイスカード(NIC)をFPGAで作成し、GPUとFPGA間のリモートダイレクトメモリアクセス(RDMA)用のデバイスドライバを開発した。提案システムと、従来のRDMAシステムを比較した結果、通信オーバヘッドの9割を隠蔽し、スケーラビリティを2割向上させることができた。ResNet-50モデルに、ImageNetをエンドツーエンドで学習させる時間は、精度を低下させることなく87.3 %に短縮できた。 |
(英) |
In distributed deep learning (DL), collective communication (Allreduce) used to share training results between GPUs is a bottleneck. We develop a network interface card (NIC) implementing the Allreduce circuit in FPGA and a device driver for remote direct memory access (RDMA) between GPU and FPGA. A comparison of our system with a conventional RDMA system shows that our system can also conceal about 90 % of the communication overhead and improve scalability by 20 %. The end-to-end time consumed for training in distributed DL with ResNet-50 and ImageNet is reduced to 87.3 % without any degradation in validation accuracy. |
キーワード |
(和) |
分散深層学習 / 並列コンピューティング / ヘテロジニアスコンピューティング / FPGA / / / / |
(英) |
Distributed Deep Learning / Parallel Computing / Heterogeneous Computing / FPGA / / / / |
文献情報 |
信学技報, vol. 120, no. 168, RECONF2020-19, pp. 1-6, 2020年9月. |
資料番号 |
RECONF2020-19 |
発行日 |
2020-09-03 (RECONF) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
査読に ついて |
本技術報告は査読を経ていない技術報告であり,推敲を加えられていずれかの場に発表されることがあります. |
PDFダウンロード |
RECONF2020-19 |