# Critical Learning Period in Deep Networks (2019)
Critical Learning Period in Deep Networks (2019)
Critical Learning Period in Deep Networks (2019)
発表場所
- Published as Conference Paper at ICLR 2019
DOI(なければURL)
概要
- ANNにおける臨界期についての研究
- 臨界期(critical period ):
-
動物の脳の発達期にみられる指数的な表現学習の進行が起きる期間
-
初期感覚入力がその後の回復や性能に不可逆的影響を与える
-
臨界期に与えられる情報にdeficitがあると,その後永久的に機能が向上しなくなる
- 例えば以下 (引用:臨界期 - 脳科学辞典)
幼年期(ヒトでは9歳頃まで)に偏った視覚経験を受けると(例えば、片眼に長期間眼帯をすると)、閉じられた眼からの情報よりも開いた眼からの情報を多く受け取るように、神経回路が作り変えられる。その結果、閉じられた眼の入力を中継する外側膝状体細胞の軸索(視床-皮質投射)は、視覚野において著しく萎縮し(図)、閉じられた眼の視力は弱くなる(弱視)。弱視は、就学前までの子どもの2~4%に見られる決して珍しくない疾患である。げっ歯類でも同様に、生後20 - 40日頃に眼優位性の臨界期があり、臨界期に閉じられた眼の視力は弱くなる。マウスからヒトまで、弱視を回復するためには可塑性が高い臨界期のうちに治療を施す必要があり、大人になってからの治療では回復が難しいことが知られている。
-
- 生物の脳(Bio-NN, BNN)と同様に,ANNにおいても臨界期のような現象が報告されている(empirical result).学習の初期数エポックに与える情報が収束後の性能に影響を与える
- 本研究ではANNに見られる臨界期について複数のアーキテクチャ,deficit(不良刺激), optimization algorithm で検証を行った.
- また臨界期の重みのFisher information 解析を行なった.
新規性、先行研究との違い
- 生物学の文脈で研究されてきた臨界期について、DNNにおいても類似の臨界期が自然に生じることを明確に示した
- Fisher Information(FIM)を用いて,ネットワーク内部の有効結合度(effective connectivity)を測定する手法を導入し, 初期学習の動態と臨界期を結びつけて解析した
- DNNの学習過程を初期の急激な情報獲得フェーズ → 後半の情報再編フェーズに分けて捉えている.初期フェーズとしての臨界期と解釈している
- 従来は収束特性が注目されていたが,学習の立ち上がりでネットワーク内部で起こる現象に注目している部分は新しい.さらにそれが収束後の性能に影響する点で重要
- 生物の視覚実験(子猫の単眼遮断や白内障など)で観察されるパターンをDNNで再現し、両者の類似性を示唆した
- 現象論の類似
- それに加えてFIM解析によって「シナプスの刈り込み」に酷似するネットワーク内結合の再編プロセスを記述し,生物学との接点を示唆した
- 著者らとしては,DNNで再現できることから「DNNを脳の感覚野の有効なモデルとして提唱する」ことを目指してはいないようだ. あくまで生物ー人工問わず普遍的な(特にNNを用いた)情報処理/学習の原則を理解することで説明可能なAIの開発の基礎を築こうとしている.
実験
今後追記予定
実験方法と結果
①深層ニューラルネットワークの画像分類タスクにおいて,学習初期に与える画像inputに対してdeficit介入を行った.
②実験に加えて学習時のネットワークの重みを解析することで臨界期の現象をさらに探求した.
Experiment
Fig 1,2,3を参照
上で述べたように,CNN, Fully Connected NN, ResNetと複数の最適化手法を用いて行っている.
臨界期におけるdeficitを再現するために, 加工した入力画像を学習初期に入れて学習している.
加工は,ぼかし,上下反転,ラベル入れ替え,ホワイトノイズ入力を用いた.
deficitの長さを変化させながら(fig1 left),またdeficitの長さを固定してonsetをずらしながら(fig1 right)影響を記録した.
Experimental Result
- 学習初期のエポックで,入力画像にぼかしやノイズなどのdeficitを入れた場合,ベースラインに比べて収束後の性能が落ち込む = ANNでの臨界期を確認
- アーキテクチャに関わらず臨界期がみられた
- ResNet, FullyConnected NN
- 自然画像かどうかも関係ない
- CIFEAR -10 でも同様にみられた
- 学習率のアニーリングを行わなくてもみられる
- vanilla SGDでも同様の現象が見られる
- 画像の上下反転やラベルのランダム変更などHigh-level deficitはその後の学習で十分に改善される
- ぼかしは白色ノイズの入力よりも深刻な影響を与える
- ノイズの場合は特徴がないので学習されない
- 白色ノイズで学習すると臨界期が長くなる(これは重要かも)
- ぼかしの場合は情報があるのでそれを学習してしまう
- 結果的にぼかしの方がもとに戻った時の悪影響が大きい
- ノイズの場合は特徴がないので学習されない
Fisher Information Analysis
Fig 4,5
- 今後追記します.
読んだ感想
-
実験的な研究ではここまで徹底的に変数を絞り込んでやらなければならない
-
損失ランドスケープが初期のdeficitによってsuboptimalな局所解に落ちてしまっていると解釈できるような気もするが, それだけでは説明できないらしい.
- 論文でそのように言及されているもののまだ理解できてない.
-
High-level / Low levelというのがざっくりしている
- 例えばこの論文で言っているようなk次モーメントを使ってもっと定量的に測ればいいかも?
- [2402.04362] Neural Networks Learn Statistics of Increasing Complexity
Discussion