講演抄録/キーワード |
講演名 |
2015-03-20 14:00
並列分散処理における共変量シフトを導入したRandom Forestsの学習 ○若山涼至(中部大)・木村昭悟(NTT)・山下隆義・山内悠嗣・藤吉弘亘(中部大) BioX2014-73 PRMU2014-193 |
抄録 |
(和) |
データの大規模化は,統計的機械学習において高い識別性能を得るために重要な要件の1つであるが,学習時間を増加させる問題がある.しかし複数の計算機やGPUを用いて並列分散処理を適切に用いることができれば,学習時間を大幅に削減できる.本研究では,効率的に並列分散処理を行うモデルとしてMapReduceを採用し,MapReduceモデルに適した識別器の1つであるRandom Forestsの並列分散学習法を提案する.Map処理では,並列分散学習に共有データを導入し,転移学習を行うことで各ワーカノードに割り当てられた学習データあ少量であっても高い識別性能を獲得し,Reduce処理では決定木の削除を用いることで識別時の計算コストを削減する.提案手法では,各ワーカノードに分布の偏りが強いデータが与えられた場合においても,識別性能の低下を防ぐことが可能である. |
(英) |
Machine learning with big data improves a classification performance but increases computatinal cost for learning. Parallel distributed processing on multiple processors GPUs is often used to reduce processing time. This paper exploits MapReduce, an efficient framework for parallel distributed processing and proposes a novel method for training Random Forests by using the MapReduce framework. At the Map job stage, each worker trains a Transfer Forest with shared data to enhance classification performance. At the Reduce job stage, a reducer removes unreliable decision trees constructed at the Map stage, in order to reduce the computational cost of testing. The proposed method can retain the classification performance, even though unbalanced training samples are assigned to each worker. |
キーワード |
(和) |
ランダムフォレスト / 転移学習 / 並列分散処理 / 機械学習 / MapReduce / / / |
(英) |
Random Forests / Transfer learning / Parallel distributed processing / Machine learning / MapReduce / / / |
文献情報 |
信学技報, vol. 114, no. 521, PRMU2014-193, pp. 205-210, 2015年3月. |
資料番号 |
PRMU2014-193 |
発行日 |
2015-03-12 (BioX, PRMU) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
BioX2014-73 PRMU2014-193 |