深層学習メモ

y(x; w):xに対してのユニットの出力y(wはパラメータ(重み))

1 はじめに

2 ネットワークの基本構造
交差エントロピー
確率分布同士の距離(不一致度)を測定.
分類問題においてモデルの出力確率分布と正解ラベルの分布の違いを測る.
多クラス分類では、出力層に Softmax を使って確率分布を得てから交差エントロピーを計算する.
- 正解クラスに対してモデルが高い確率を出せば損失は小さくなる
- 間違ったクラスに確率を分配すると損失が大きくなる
交差エントロピーは、KLダイバージェンス + エントロピー に分解できる.
マルチラベル分類
1枚の画像から,人の画像であれば「眼鏡をかけている」,「ひげがある」,「帽子をかぶっている」など.
順序回帰
5段階評価や年齢の(0~9歳,10~19歳)など
あるものがどの区分に入るかを予想する

3 確率的勾配降下法
確率的勾配降下法 SGD:Stochastic gradient descent
SGDを用いることで局所的な極小解にトラップされることを防止できる.
バッチ処理の場合は,目的関数が常に同じであるため,最初にたまたま到達した局所極小解が最終的な解となるが,SGDの場合は重みの更新のたびに目的関数が異なるため,そのリスクが小さくなる.
モメンタム
SGDで毎回目的関数が異なっているため更新量にばらつきがあったが,重みの更新時に前回の重みの修正量の何割かを加算することにより安定させる方法.
正則化
バイアス・分散トレードオフ(パラメータ数が小さいとき,また大きいときに誤差が大きくなる)で,ネットワークの規模が大きいほど過剰適合が生じやすいため,学習時にパラメータに一定の制約を課してモデルの自由度を下げて過剰適合を防ぐこと.
L2正則化
損失関数に重みの2乗和を加える.重みが過剰に大きくなることを防ぐ.
ドロップアウト
ネットワークのユニットを学習時のみランダムで消去する.学習時にネットワークの自由度を強制的に小さくする
Adam
名前は Adaptive Moment Estimation の略で、「勾配のモーメント(統計的性質)を使って適応的に学習率を調整する」という意味を持つ
Momentum(過去の勾配の移動平均)と RMSProp(勾配の2乗平均で学習率を調整)を組み合わせたもの
特徴をまとめると
- 自動で学習率を調整(勾配の大きさに応じて)
- 収束が速い(初期の学習に強い)