🕸️

【論文メモ】Densely Connected Convolutional Networks

2024/04/25に公開

CNN

densenet

tech

論文情報

タイトル

英語: Densely Connected Convolutional Networks
日本語: 密接に接続された畳み込みネットワーク

雑誌名・発行年

Arxiv
2017年

著者

最初の著者: Gao Huang (Cornell University)
最後の著者: Kilian Q. Weinberger (Cornell University)

所属

Cornell University

0.Abstract

本論文では、スキップコネクションやショートカットコネクションがあると、より深く正確に効率的に訓練できることが示されていることを受けて、各層を後続のすべての層に繋げるDense Convolution Network (DenseNet) を提案する。

Dense Convolution Network (DenseNet)

勾配消失問題を緩和し、特徴の伝搬を強化する。
特徴の再利用を促進するのでパラメータ数も大幅に削減できる。
CIFAR-10、CIFAR-100、SVHN、およびImageNet）でのほとんどのタスクで従来手法に比べて大幅な改善をもたらし、高いパフォーマンスを達成するための計算量を減らすことに成功した。

1.Introduction

CNNは深くなるにつれより細かな特徴を取得できるが、それと同時に非効率的な情報の伝達や勾配の消失が問題となっている。

ResNetsとHighway Networksは、層間を恒等接続を介して次の層に信号をバイパスする。
Stochastic depthは、訓練中にランダムに層を削除することでResNetsを短縮し、より良い情報や勾配の流れを可能にする。
FractalNetsは、異なる数の畳み込みブロックを持ついくつかの並行した層のシーケンスを繰り返し組み合わせて、大きな名目上の深さを得るが、ネットワーク内で多くの短絡経路を維持する。

これらの問題を解決するため、DenseNetは各層を前のすべての層と後続のすべての層に繋げる接続パターンを提案する。

3.DenseNets

事前情報

入力画像 : $x_０$
非線形変換処理 : $H_{\ell}()$ : バッチ正規化、ReLU、Poolingもしくは畳み込み操作を組み合わせた処理。

ResNets

通常の畳み込みの場合、 $\ell^{t h}$ 層の出力は $(\ell+1)^{t h}$ 層の入力に渡される。つまり、 $\ell^{th}$ の入力を $x_{\ell}$ と表せるので、出力は $H_l(x_{\ell -1})$ と表せる。
ResNetの場合Resdiual Connectionが追加されるので、 $\mathbf{x}_{\ell}=H_{\ell}\left(\mathbf{x}_{\ell-1}\right)+\mathbf{x}_{\ell-1}$ となる。しかし、前の出力を加算するので、元の信号の特徴が弱くなったり、かえって勾配の減衰をする可能性がある。

Dense Connectivity

情報フローをさらに改善するための接続方法
$\ell^{th}$ 層はそれより前の層の出力全てを受け取るので、 $\mathbf{x}_{\ell}=H_{\ell}\left(\left[\mathbf{x}_0, \mathbf{x}_1, \ldots, \mathbf{x}_{\ell-1}\right]\right)$ と表せる。 $\left[\mathbf{x}_0, \mathbf{x}_1, \ldots, \mathbf{x}_{\ell-1}\right]$ は $0, \ldots, \ell-1$ 層の出力をconcatしている。

Composite Function

DenseNetでは、非線形処理 $H_{\ell}()$ をバッチ正規化・ReLU・3x3Convに設定

Pooling Layer

ある層がそれまでの全ての層を入力として受け取る時、 $\left[\mathbf{x}_0, \mathbf{x}_1, \ldots, \mathbf{x}_{\ell-1}\right]$ をconcatする必要がある。この際にダウンサンプリング処理によって各特徴マップのshapeが違うとconcatできない。

特徴抽出を行うDense Blockとダウンサンプリングを行うトランジションで分割して対応した。
- Dense Block : 密に接続された $H_{\ell}()$ の処理を行う層
- トランジション層 : DenseBlockの間に存在し、ダウンサンプリング処理・バッチ正規化・1x1Conv・2x2AvgPoolingを行う。

Growth Rate

各層が出力する特徴マップの数のことをGrowth Rateと呼ぶ。

$\ell^{th}$ 層は入力として $k_0+k \times(\ell-1)$ 個の特徴マップを受け取る（ $k_0$ はDense Blockの最初の層の入力のチャンネル数）。
密な接続のおかげで、 $k=12$ のような小さな数でも高い精度を達成することができる。

Bottleneck Layers

Dense Block内の各層は $k$ 個の特徴マップを出力するが、場合によっては特徴マップ数が大きくなりすぎることがある。

この問題点を改善するため、3x3Conv処理をする前に1x1Convでチャンネル数を減らすことができる。これをボトルネック層という。
つまり、ボトルネック層を加味したDense Block内の各層の処理 $H_{\ell}$ はバッチ正規化-ReLU-1x1Conv-3x3Convの順番で処理される。

Compression

モデルの計算コストをさらに下げるために、トランジション層で圧縮の概念が導入されている。

Dense Blockが $m$ 個の特徴マップを持っている時、トランジション層では特徴マップ数を $\theta m$ に減少させる。 $0<\theta<1$ で与えられる。 $\theta$ が1の場合、マップ数は減少しない。
DenseNet-Cでは $\theta$ が0.5に設定されている。
ボトルネック層とトランジション層を導入したDenseNetをDenseNet-BCと呼ぶ。

Implemention Details

DenseNet構成：実験に使用されたDenseNetは、ImageNetを除くすべてのデータセットで、3つのDense Blockを持ち、それぞれ同じ数の層が含まれています。最初のDense Blockに入る前に、16の出力チャネル（またはDenseNet-BCの場合は成長率の2倍）のコンボリューションが入力画像に適用されます。3×3のコンボリューション層では、フィーチャーマップのサイズを維持するために、入力の各辺に1ピクセルのゼロパディングが施されます。
トランジション層：Dense Block間のトランジション層は、1×1のコンボリューションと2×2の平均プーリングから成り立っています。
グローバル平均プーリングとソフトマックス：最後のDense Blockの後には、グローバル平均プーリングが行われ、続いてソフトマックス分類器が配置されます。
フィーチャーマップのサイズ：3つのDense Blockのフィーチャーマップのサイズは、それぞれ32×32、16×16、8×8です。
DenseNetの構成バリエーション：基本的なDenseNetの構成では、{L = 40, k = 12}、{L = 100, k = 12}、{L = 100, k = 24}が使用されました。DenseNet-BCでは、{L = 100, k = 12}、{L = 250, k = 24}、{L = 190, k = 40}の構成が評価されました。
ImageNetでのDenseNet-BC：ImageNetの実験では、4つのDense Blockを持ち、224×224の入力画像に対して、サイズ7×7、ストライド2の2kコンボリューションを持つDenseNet-BC構造を使用しました。他のすべての層のフィーチャーマップの数も、設定されたkに基づいています。ImageNetで使用された正確なネットワーク構成は、表1に示されています。