ニューラルネットワークの隠れ層のユニット数とReLU関数が汎化能力に与える影響の理論解析

古庄,泰隆; 池田,和司

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2019-03-06 10:30 ニューラルネットワークの隠れ層のユニット数とReLU関数が汎化能力に与える影響の理論解析 ○古庄泰隆・池田和司（奈良先端大） IBISML2018-111
抄録	（和）	一般的に大きすぎる学習モデルは訓練データに過学習するが,驚くべきことに活性化関数にReLU関数を持つニューラルネットワークでは次の逆の結果が得られる. 隠れ層のユニット数を増やす程,訓練誤差はもちろん小さくなるが,驚くべきことに訓練誤差とテスト誤差のギャップも小さくなる. 本研究ではこのメカニズムを明らかにするため,隠れ層によって変換された特徴ベクトルのクラス内分散とクラス間分散に注目し次の結果を得た. 重みがランダムなニューラルネットワークでは隠れ層のユニット数を増やす程,隠れ層の変換により得られる特徴ベクトルのクラス内分散は小さくなり,クラス間分散は大きくなる. この性質により幅の広いニューラルネットワークは小さな訓練誤差,そして小さなギャップを達成することを示すことができる. 数値実験でも上記の理論的性質が成り立ち,さらに学習後のネットワークにも我々の理論が適用できることを確認した.
	（英）	Model size determination is important in machine learning since a larger model leads to overfitting, that is, a small training loss and a high test loss. Surprisingly, a multi-layer perceptron (MLP) with the ReLU activation function has a smaller training loss as well as a smaller gap between the training loss and a test loss as each layer gets wide. To elucidate the mechanism, this paper theoretically derives an upper-bound of the gap for a random network and shows a wider MLP has a smaller gap. Our numerical experiments confirmed the validity of our analysis and the applicability to the trained model.
キーワード	（和）	ニューラルネットワーク / モデルサイズ / 過学習 / 汎化能力 / / / /
	（英）	Neural networks / model size / over-fitting / generalization ability / / / /
文献情報		信学技報, vol. 118, no. 472, IBISML2018-111, pp. 45-50, 2019年3月.
資料番号		IBISML2018-111
発行日		2019-02-26 (IBISML)
ISSN		Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		IBISML2018-111

研究会情報
研究会	IBISML
開催期間	2019-03-05 - 2019-03-06
開催地（和）	理研AIP
開催地（英）	RIKEN AIP
テーマ（和）	機械学習一般
テーマ（英）	Machine learning, etc.
講演論文情報の詳細
申込み研究会	IBISML
会議コード	2019-03-IBISML
本文の言語	日本語
タイトル（和）	ニューラルネットワークの隠れ層のユニット数とReLU関数が汎化能力に与える影響の理論解析
サブタイトル（和）
タイトル（英）	Wider neural networks with ReLU activation generalize better
サブタイトル（英）
キーワード(1)（和/英）	ニューラルネットワーク / Neural networks
キーワード(2)（和/英）	モデルサイズ / model size
キーワード(3)（和/英）	過学習 / over-fitting
キーワード(4)（和/英）	汎化能力 / generalization ability
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	古庄泰隆 / Yasutaka Furusho /
第1著者所属（和/英）	奈良先端科学技術大学院大学 (略称：奈良先端大) Nara Institute of Science and Technology (略称： NAIST)
第2著者氏名（和/英/ヨミ）	池田和司 / Kazushi Ikeda / イケダカズシ
第2著者所属（和/英）	奈良先端科学技術大学院大学 (略称：奈良先端大) Nara Institute of Science and Technology (略称： NAIST)
第3著者氏名（和/英/ヨミ）	/ /
第3著者所属（和/英）	(略称： ) (略称： )
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2019-03-06 10:30:00
発表時間	30分
申込先研究会	IBISML
資料番号	IBISML2018-111
巻番号（vol）	vol.118
号番号（no）	no.472
ページ範囲	pp.45-50
ページ数	6
発行日	2019-02-26 (IBISML)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会