🐍

誤差逆伝播法を完全に理解したので説明する

2023/09/13に公開

機械学習

誤差逆伝播法

tech

誤差逆伝播法を完全に理解したので、忘れないうちに書き留めておきます。

ニューラルネットワークについてなんとなく理解しているよって人向けです！

誤差逆伝播法とは？

誤差逆伝播法はニューラルネットワークのパラメータ更新を自動で行う手法です。
詳しくは述べませんが、次の式によってニューラルネットワークのパラメータを更新(いわゆる学習と呼ばれるプロセス)することができます。

$w' = w - η\dfrac{∂L}{∂w}:$ パラメータ $w$ の更新式
$w:$ パラメータ
$L:$ 損失関数
$η:$ 学習率

学習率 $η$ は任意の値なので置いておいて、パラメータ $w$ をパラメータ $w'$ へ更新するためには損失関数 $L$ に対する $w$ の偏微分 $\dfrac{∂L}{∂w}$ を求める必要があります。

これを求めるための手法が誤差逆伝播法です。

どのように求めるか

$\dfrac{∂L}{∂w}$ を単純に求めることができれば楽なのですが、ニューラルネットワークは網目のような形状をしており、一つのパラメータ $w$ が広範囲に広がって損失関数 $L$ に影響を与えています。

そのため解析的に正攻法で解くことはほぼ不可能です。
そこで、損失関数Lから逆算して求める方法が考案されました。

具体的に考えていきましょう。次のようなニューラルネットワークを考えます。

$x$ が入力、 $w,a,b,c$ は全てパラメータ(重み)で、 $y$ が出力です。 $y_L$ が損失関数 $L$ の出力です。

このとき、 $L=y_L$ $^{＊1}$ に対する $w$ の偏微分 $\dfrac{∂L}{∂w}$ はどのように計算できるでしょうか？

ここで、連鎖律という考え方を使用します。

連鎖律
重みを更新する際、連鎖律と呼ばれる微分の手法を使用します。
これは $E(y(x))$ の時、
$E$ に対する $x$ の偏微分 $\dfrac{∂E}{∂x}$ が
$\dfrac{∂E}{∂x}=\dfrac{∂E}{∂y}\dfrac{∂y}{∂x}$ と変形できる性質のことです。

これを多変数に展開すると、
$E(u,v)$ かつ $u(x,y),v(x,y)$ の時、 $E$ に対する $x$ の偏微分 $\dfrac{∂E}{∂x}$ が
$\dfrac{∂E}{∂x}=\dfrac{∂E}{∂u}\dfrac{∂u}{∂x}+\dfrac{∂E}{∂v}\dfrac{∂v}{∂x}$

となります。これはつまり多変数関数で連鎖律を使用する際には、変数xが影響を及ぼしている全ての関数の連鎖律の総和が必要であるということです。これにより特定の変数が $E$ へ与える影響を考えることができます。

では再度図を示します。

上の図で $L$ は出力 $y_w,y_a,y_b,y_c$ の関数であり、 $y_w$ は $w$ の関数であると考えられるので、連鎖率より
$\dfrac{∂L}{∂w} = \dfrac{∂L}{∂y_b}\dfrac{∂y_b}{∂y_a}\dfrac{∂y_a}{∂y_w}\dfrac{∂y_w}{∂w}+\dfrac{∂L}{∂y_c}\dfrac{∂y_c}{∂y_a}\dfrac{∂y_a}{∂y_w}\dfrac{∂y_w}{∂w}$

と計算できます $^{＊2}$ 。そして、これを一度に計算するのではなく、 $\dfrac{∂L}{∂y_b}$ を計算し、それを利用して $\dfrac{∂L}{∂y_b}×\dfrac{∂y_b}{∂y_a}$ を計算し、 $\dfrac{∂L}{∂y_b}×\dfrac{∂y_b}{∂y_a}×\dfrac{∂y_a}{∂y_w}$ を計算し…というように、最終的な関数 $L$ から遡って計算を行います。(機械学習のフレームワークでは、自動で遡って計算する機能が組み込まれています)
1つ1つの計算は単純なので、プログラムで自動的に全て求めることができるのです。

例えば $\dfrac{∂y_b}{∂y_a}$ などは、 $y_b=b*y_a$ なので、 $\dfrac{∂y_b}{∂y_a} = b$ となります。今回は単純なかけ算なので、かけた値が「出力に影響を与えた大きさ」として逆伝播していきます。

そして、求めた $\dfrac{∂L}{∂w}$ を利用して、
$w' = w - η\dfrac{∂L}{∂w}$ の式によってパラメータ $w$ を更新し、更新後のパラメータ $w'$ で上記の計算を行い、さらに $w''$ を求めて、、、というふうにパラメータを更新します。

この動作によって、損失関数 $L$ が少なくなるようにパラメータ $w$ が変化していきます。
損失関数 $L$ がある程度まで小さくなったら、パラメータ $w^n$ を固定してニューラルネットワークの学習は終了です。
そのパラメータを固定したニューラルネットワークに、新しい入力を入れることで回帰などが行えます。

さいごに

今回の計算は連鎖律によって行われ、ニューラルネット上でパラメータ $w$ が関わるすべての連鎖律の総和を取る必要がありました。
パラメータ $w$ が与えたすべての影響について、連鎖律による逆伝播の加算という形で計算することで、「広範囲に広がった影響」を「元のパラメータ」の場所まで集めることができるのです。

このように、簡単な計算で $\dfrac{∂L}{∂w}$ を求めていく手法が誤差逆伝播法でした。

また今回はかけ算のみでしたが、上で示したようにかけ算のみだと値がそのまま戻るだけであり、表現力に乏しいモデルになってしまいます。これを改善するために、一般的なニューラルネットワークでは活性化関数と呼ばれる非線形の関数 $f$ を出力 $y$ に適用して、 $f(y)$ を出力として計算していきます。

これにより、柔軟な表現が可能なニューラルネットワークが出来上がるのです。

補遺

$^{＊1}$ $L=y_L$ とできるのは、関数 $L$ を実際に計算することで $y_L$ が求まるためです。 $L$ について重み $w$ の偏微分を求めることは、 $w$ を変化させることでどれだけ $L$ の出力 $y_L$ が変化するかを求める事に等しくなります。
$^{＊2}$ $\dfrac{∂L}{∂w}$ なども同様に、 $\dfrac{∂L}{∂w} = \dfrac{∂L}{∂y_b}\dfrac{∂y_b}{∂b}$ として最終項の分母を ${\partialb}$ に変更することで求められます。(パラメータbからは分岐していないので式は単純になります)

※誤差逆伝播は、特定の関数(損失関数)に対して実行されます。ニューラルネットの出力結果ではなく、出力結果と正解データの差異を計算する関数に対して実行され、差異を減らす方向にニューラルネットワークのパラメータを更新します。

誤差逆伝播法とは？

どのように求めるか

さいごに

補遺

Discussion