講演抄録/キーワード |
講演名 |
2017-07-26 11:15
Summed Area Table計算の効率的なGPU実装 ○柄本悠太郎・本田 巧・中野浩嗣・伊藤靖朗(広島大) CPSY2017-19 |
抄録 |
(和) |
本論文では,Summed Area Table (SAT)計算の効率的なGPU実装を提案する.SATを計算する既存のGPU実装は行列を小さな領域に分割し並列に計算を行っている.このとき,領域間で計算の同期をとる必要があり,そのためのカーネル呼び出しにかかるオーバーヘッドが計算時間の遅延をもたらしていた.カーネルとはGPUの実行するプログラムのことで,CUDAは異なるブロック間で同期をとるとき新しいカーネルを起動する必要がある.そこで,提案GPU実装では領域ごとに計算の進捗を管理する状態フラグを用意することで,1度のカーネル呼び出しでSAT計算を行い高速化を実現した.評価実験として提案手法をNVIDIA Titan Xに実装し,実行時間を計測した.その結果,提案手法は既存のGPU実装と比べて最大2.03倍,逐次処理のCPU実装と比べて最大41.68倍の高速化を達成した. |
(英) |
The main contribution of this paper is to show an efficient GPU implementation of computing the summed area table. Existing implementations compute SAT in parallel dividing input matrix into submatrix. In the implementations, to synchronize the computation, the execution is divided into several kernels that are launched in serial. Our implementation adopts status flag to check the progress of computation and calls a kernel only once to compute SAT. In this paper, we show a GPU implementation that can perform a single kernel call on NVIDIA Titan X. The experimental results show that our SAT implementation runs faster at most 2.03 times than existing GPU implementations and 41.68 times faster than sequential algorithm using the CPU. |
キーワード |
(和) |
summed area table / prefix-sum / GPU / CUDA / / / / |
(英) |
summed area table / prefix-sum / GPU / CUDA / / / / |
文献情報 |
信学技報, vol. 117, no. 153, CPSY2017-19, pp. 19-24, 2017年7月. |
資料番号 |
CPSY2017-19 |
発行日 |
2017-07-19 (CPSY) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
CPSY2017-19 |