🌊

Deep Learning資格試験深層学習強化学習代表的なモデル

2022/02/08に公開

E資格

tech

はじめに

日本ディープラーニング協会の Deep Learning 資格試験（E 資格）の受験に向けて、調べた内容をまとめていきます。

DQN（深層 Q ネットワーク、Deep Q-Network）

論文

2013 年に提案された。
マルコフ決定過程（Markov decision process, MDP）に基づく強化学習では、エージェントは各タイムステップにおいて与えられた環境下で行動を選択し、報酬と次タイムステップの状態を得る。エージェントは累積報酬和を最大化することを目的とし、試行錯誤を通じて学習を進める。Q 学習（Q-Learning）では、状態において行動を選択し、その後方策に従った場合の期待累積報酬和を得る行動価値関数を真の価値関数に近づけるように更新していく。

DQN では、Q 学習に深層学習を適用する際、

入力データが時系列データであり、入力データ間に独立性がない
- 体験再生と呼ばれる技術を適用している。
価値関数が小さく更新されただけでも選ばれる行動が大きく変わってしまう
- 目標値の計算に用いる行動価値関数ネットワークのパラメータを固定している。
報酬のスケールが与えられたタスクによって大きく異なる
- 報酬のクリッピングという手法を導入している。

という 3 つの諸問題の解消に取り組んだ。

DCGAN

GAN を利用した画像生成モデル
中間層に全結合層を使わない
バッチノーマライゼーションを適用する
Generator
- Pooling 層の代わりに転置畳み込み層を使用する。
- 最終層は tanh、その他は ReLU 関数で活性化する。
Discriminator
- Pooling 層の代わりに畳み込み層を使用する。
- Leaky ReLU 関数で活性化する。

はじめに

DQN（深層 Q ネットワーク、Deep Q-Network）

DCGAN

Discussion