Deep Learning資格試験 深層学習 生成モデル

2022/02/08に公開

はじめに

日本ディープラーニング協会の Deep Learning 資格試験(E 資格)の受験に向けて、調べた内容をまとめていきます。

GAN (Generative Adversarial Nets)

  • ⽣成器と識別器を競わせて学習する⽣成&識別モデル
  • 価値関数Vに対し, Dが最⼤化, Gが最⼩化を⾏う

Generator

  • 乱数からデータを⽣成

Discriminator

  • ⼊⼒データが真データ(学習データ)であるかを識別

pix2Pix

タスク

  • 2016 年に提案された
  • 線画を入力画像として、色つきの画像を出力する
  • 一部がマスクされた画像を入力として、マスク部分が補完された画像を出力する
  • 低画質な画像を入力として、高画質な画像を出力する

WaveNet

論文

  • テキストから音声を合成する。
  • Google により提案された。
  • 音声データは、データ長が画像データやテキストよりも長い。
    • 例えば 44100Hz の音声データは1秒間に 44100 次元のベクトルが存在する。

Dilated Causal Convolution(ダイレクト・コーザル畳み込み)

  • Dilated ConvolutionCausal Convolutionの組み合わせ。
  • Causal Convolutionは、過去の時刻ステップだけを用いて畳み込みを行う方法であり、少ない層数で受容野を広くできる。
  • Dilated Convolutionは、少ないパラメータで広い範囲を畳み込むことを糸しており、フィルタを適用する入力データの場所を数ステップずつステップし、疑似的にフィルタ長より大きな受容野をもたせる。
  • データ長が長い音声データに対して、層が増えても効率的に計算できるように、層が深くなるにつれて、畳み込みの間隔を開ける。

WaveNet

Discussion