⛳
Deep Learning資格試験 深層学習 生成モデル
はじめに
日本ディープラーニング協会の Deep Learning 資格試験(E 資格)の受験に向けて、調べた内容をまとめていきます。
GAN (Generative Adversarial Nets)
- ⽣成器と識別器を競わせて学習する⽣成&識別モデル
- 価値関数
に対し,V が最⼤化,D が最⼩化を⾏うG
Generator
- 乱数からデータを⽣成
Discriminator
- ⼊⼒データが真データ(学習データ)であるかを識別
pix2Pix
タスク
- 2016 年に提案された
- 線画を入力画像として、色つきの画像を出力する
- 一部がマスクされた画像を入力として、マスク部分が補完された画像を出力する
- 低画質な画像を入力として、高画質な画像を出力する
WaveNet
- テキストから音声を合成する。
- Google により提案された。
- 音声データは、データ長が画像データやテキストよりも長い。
- 例えば 44100Hz の音声データは1秒間に 44100 次元のベクトルが存在する。
Dilated Causal Convolution(ダイレクト・コーザル畳み込み)
- Dilated ConvolutionとCausal Convolutionの組み合わせ。
- Causal Convolutionは、過去の時刻ステップだけを用いて畳み込みを行う方法であり、少ない層数で受容野を広くできる。
- Dilated Convolutionは、少ないパラメータで広い範囲を畳み込むことを糸しており、フィルタを適用する入力データの場所を数ステップずつステップし、疑似的にフィルタ長より大きな受容野をもたせる。
- データ長が長い音声データに対して、層が増えても効率的に計算できるように、層が深くなるにつれて、畳み込みの間隔を開ける。
Discussion