講演抄録/キーワード |
講演名 |
2019-03-06 10:30
ニューラルネットワークの隠れ層のユニット数とReLU関数が汎化能力に与える影響の理論解析 ○古庄泰隆・池田和司(奈良先端大) IBISML2018-111 |
抄録 |
(和) |
一般的に大きすぎる学習モデルは訓練データに過学習するが,驚くべきことに活性化関数にReLU関数を持つニューラルネットワークでは次の逆の結果が得られる.
隠れ層のユニット数を増やす程,訓練誤差はもちろん小さくなるが,驚くべきことに訓練誤差とテスト誤差のギャップも小さくなる.
本研究ではこのメカニズムを明らかにするため,隠れ層によって変換された特徴ベクトルのクラス内分散とクラス間分散に注目し次の結果を得た.
重みがランダムなニューラルネットワークでは隠れ層のユニット数を増やす程,隠れ層の変換により得られる特徴ベクトルのクラス内分散は小さくなり,クラス間分散は大きくなる.
この性質により幅の広いニューラルネットワークは小さな訓練誤差,そして小さなギャップを達成することを示すことができる.
数値実験でも上記の理論的性質が成り立ち,さらに学習後のネットワークにも我々の理論が適用できることを確認した. |
(英) |
Model size determination is important in machine learning since a larger model leads to overfitting, that is, a small training loss and a high test loss. Surprisingly, a multi-layer perceptron (MLP) with the ReLU activation function has a smaller training loss as well as a smaller gap between the training loss and a test loss as each layer gets wide.
To elucidate the mechanism, this paper theoretically derives an upper-bound of the gap for a random network and shows a wider MLP has a smaller gap.
Our numerical experiments confirmed the validity of our analysis and the applicability to the trained model. |
キーワード |
(和) |
ニューラルネットワーク / モデルサイズ / 過学習 / 汎化能力 / / / / |
(英) |
Neural networks / model size / over-fitting / generalization ability / / / / |
文献情報 |
信学技報, vol. 118, no. 472, IBISML2018-111, pp. 45-50, 2019年3月. |
資料番号 |
IBISML2018-111 |
発行日 |
2019-02-26 (IBISML) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2018-111 |
研究会情報 |
研究会 |
IBISML |
開催期間 |
2019-03-05 - 2019-03-06 |
開催地(和) |
理研AIP |
開催地(英) |
RIKEN AIP |
テーマ(和) |
機械学習一般 |
テーマ(英) |
Machine learning, etc. |
講演論文情報の詳細 |
申込み研究会 |
IBISML |
会議コード |
2019-03-IBISML |
本文の言語 |
日本語 |
タイトル(和) |
ニューラルネットワークの隠れ層のユニット数とReLU関数が汎化能力に与える影響の理論解析 |
サブタイトル(和) |
|
タイトル(英) |
Wider neural networks with ReLU activation generalize better |
サブタイトル(英) |
|
キーワード(1)(和/英) |
ニューラルネットワーク / Neural networks |
キーワード(2)(和/英) |
モデルサイズ / model size |
キーワード(3)(和/英) |
過学習 / over-fitting |
キーワード(4)(和/英) |
汎化能力 / generalization ability |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
古庄 泰隆 / Yasutaka Furusho / |
第1著者 所属(和/英) |
奈良先端科学技術大学院大学 (略称: 奈良先端大)
Nara Institute of Science and Technology (略称: NAIST) |
第2著者 氏名(和/英/ヨミ) |
池田 和司 / Kazushi Ikeda / イケダ カズシ |
第2著者 所属(和/英) |
奈良先端科学技術大学院大学 (略称: 奈良先端大)
Nara Institute of Science and Technology (略称: NAIST) |
第3著者 氏名(和/英/ヨミ) |
/ / |
第3著者 所属(和/英) |
(略称: )
(略称: ) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
第21著者 氏名(和/英/ヨミ) |
/ / |
第21著者 所属(和/英) |
(略称: )
(略称: ) |
第22著者 氏名(和/英/ヨミ) |
/ / |
第22著者 所属(和/英) |
(略称: )
(略称: ) |
第23著者 氏名(和/英/ヨミ) |
/ / |
第23著者 所属(和/英) |
(略称: )
(略称: ) |
第24著者 氏名(和/英/ヨミ) |
/ / |
第24著者 所属(和/英) |
(略称: )
(略称: ) |
第25著者 氏名(和/英/ヨミ) |
/ / |
第25著者 所属(和/英) |
(略称: )
(略称: ) |
第26著者 氏名(和/英/ヨミ) |
/ / |
第26著者 所属(和/英) |
(略称: )
(略称: ) |
第27著者 氏名(和/英/ヨミ) |
/ / |
第27著者 所属(和/英) |
(略称: )
(略称: ) |
第28著者 氏名(和/英/ヨミ) |
/ / |
第28著者 所属(和/英) |
(略称: )
(略称: ) |
第29著者 氏名(和/英/ヨミ) |
/ / |
第29著者 所属(和/英) |
(略称: )
(略称: ) |
第30著者 氏名(和/英/ヨミ) |
/ / |
第30著者 所属(和/英) |
(略称: )
(略称: ) |
第31著者 氏名(和/英/ヨミ) |
/ / |
第31著者 所属(和/英) |
(略称: )
(略称: ) |
第32著者 氏名(和/英/ヨミ) |
/ / |
第32著者 所属(和/英) |
(略称: )
(略称: ) |
第33著者 氏名(和/英/ヨミ) |
/ / |
第33著者 所属(和/英) |
(略称: )
(略称: ) |
第34著者 氏名(和/英/ヨミ) |
/ / |
第34著者 所属(和/英) |
(略称: )
(略称: ) |
第35著者 氏名(和/英/ヨミ) |
/ / |
第35著者 所属(和/英) |
(略称: )
(略称: ) |
第36著者 氏名(和/英/ヨミ) |
/ / |
第36著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2019-03-06 10:30:00 |
発表時間 |
30分 |
申込先研究会 |
IBISML |
資料番号 |
IBISML2018-111 |
巻番号(vol) |
vol.118 |
号番号(no) |
no.472 |
ページ範囲 |
pp.45-50 |
ページ数 |
6 |
発行日 |
2019-02-26 (IBISML) |
|