AIと読む「Inferring neural activity ~ beyond backpropagation」③
前回からの続きです。
考察
本稿では、見込み構成の原理を特定しました。この原理によれば、学習は、ニューロンが最初に正しい出力に一致するように活動パターンを最適化し、次にシナプス可塑性を介してこれらの見込み活動を強化することに依存します。エネルギーベースネットワークでは、荷重更新の前にニューロンの活動がシフトすることが知られていましたが、このシフトは生物学的ネットワークにおけるエラー伝播に必要なコストであると考えられており、バックプロパゲーションをより厳密に近似するために、それを抑制する方法がいくつか提案されています[^11],[^12],[^14],[^20],[^21]。対照的に、ニューラル活動のこの再構成が、バックプロパゲーションよりも優れた学習パフォーマンスを達成し、多様な学習タスクからの実験データを説明するための鍵であることを示します。見込み構成は、バックプロパゲーションとは異なる一連の実験的予測も提供します(補足図11および12)。まとめて、見込み構成は、干渉を減らすことによってバックプロパゲーションよりも効率的な学習を可能にし、生物学的有機体が直面する状況で優れたパフォーマンスを示し、ローカルな計算と可塑性のみを必要とし、幅広いタスクにわたって実験データと一致することを示しました。
私たちの理論は、脳が可塑性と安定性のジレンマをどのように解決するかという長年の疑問、たとえば、学習中に一次視覚皮質での表現の調整にもかかわらず[^43]、私たちが生涯にわたって学習した視覚刺激の意味を理解できるのはなぜかという疑問に対処します。見込み構成によれば、一部の荷重が変更されると、正しく予測された出力の安定性を確保するために、他の荷重に補償的な変更が加えられます。したがって、見込み構成は、単一の関連付けを学習する際に、異なる荷重修正間の干渉を減らします。以前の計算モデルでは、複数の関連付けを学習する際に、新しい情報と以前に取得した情報間の干渉を減らすメカニズムが提案されています[^34],[^44]。そのようなメカニズムと見込み構成が、両方のタイプの干渉を最小限に抑えるために、脳内で並行して動作する可能性が非常に高いです。
見込み構成は、統計モデリングにおける推論および学習手順に関連しています。エネルギーベーススキームの「エネルギー」が変分自由エネルギーである場合、見込み構成は、推論と学習を包含する変分ベイズの実装と見なすことができます[^45]。たとえば、動的期待値最大化[^46],[^47]は、Dステップが潜在状態の表現を最適化する(推論中の収束までの緩和と同様に)予測符号化ネットワークの一般化と見なすことができ、Eステップはモデルパラメータを最適化します(学習中の荷重修正と同様に)。
他の最近の研究[^48],[^49]も、エネルギーベースネットワークの自然な形式(彼らの言葉で「強力な制御」)がバックプロパゲーションとは異なる学習を実行することに気づきました。彼らの分析は、深いフィードバック制御のアーキテクチャに集中しており、彼らのモデルの特定の形式が予測符号化ネットワークと同等であることを示しました[^49]。私たちの論文のユニークな貢献は、そのような強力な制御の利点を示し、なぜそれらが現れるかを説明することです。見込み構成の原理は、他の最近のモデルにも存在します。たとえば、Gilra and Gerstner[^50]は、可塑性が起こる前に、出力のエラーに関するフィードバックが隠れニューロンの活動に直接影響を与えるスパイキングモデルを開発しました。Haider et al.[^51]は、活動が収束する可能性が高い値を計算する、エネルギーベースモデルのより高速な推論アルゴリズムを開発しました。これは、潜在平衡[^51]と呼ばれます。各ニューロンの出力をその潜在平衡に基づいて反復的に設定すると、推論が大幅に高速化され[^51]、見込み構成の効率的な計算が可能になります。
予測符号化ネットワークでは、ニューロンの層間の対称的な順方向および逆方向の荷重が必要であるため、そのような対称性が脳内でどのように発達するかという疑問が生じます。予測符号化ネットワークが(私たちのシミュレーションのように)対称的な荷重で初期化されている場合、ニューロンAとBの間の荷重の変化は、フィードバック荷重(ニューロンBとAの間)の変化と同じであるため、対称性は持続します。荷重が対称的に初期化されていない場合でも、シナプスの減衰がモデルに含まれている場合、対称性が発達する可能性があります[^52]。これは、初期の非対称値が減衰し、荷重値が対称的な最近の変化によってより大きな影響を受けるようになるためです。それにもかかわらず、荷重の対称性は、一般に効果的なクレジット割り当てには必要ありません[^53],[^54]。
ここでは、簡単にするために、刺激が提供された後、ニューラル活動の平衡への収束が迅速に発生し、収束後のシナプス荷重の修正が刺激が存在する間に行われると仮定しました。それにもかかわらず、予測符号化ネットワークは、ニューラル活動が収束している間に荷重修正が行われても機能します。具体的には、Song et al.は、ニューラル活動が最初の数ステップでのみ更新される場合、荷重の更新はバックプロパゲーションでの更新と同等であることを示しました[^14]。念のため、ここでは、ニューラル活動が平衡に更新される場合、荷重の更新は見込み構成の原理に従い、望ましい特性を持つことを示します。したがって、ニューラル活動と荷重が並行して更新される学習規則は、最初にバックプロパゲーションと同等の荷重更新を経験し、システムが平衡に収束するにつれて見込み構成に移行します[^55]。さらに、予測符号化ネットワークは、再帰的な構造を記述するように拡張されており[^56],[^57],[^58]、そのようなネットワークは、特定の刺激の「フレーム」の活動が収束する前に荷重が修正された場合でも、動的に変化する刺激を予測することを学習できることが示されています[^57]。
見込み構成の利点は、深層ニューラルネットワークの効率とパフォーマンスを向上させるために、機械学習で有益に適用できる可能性があることを示唆しています。これに対する障害は、緩和フェーズが計算コストが高いことです。ただし、最近の研究では、緩和の各ステップの後に荷重を修正することで、モデルがバックプロパゲーションと同等の速度になり、並列化が容易になることが示されています[^55]。
最も興味深いことに、エネルギーベースネットワークの速度は、アナログハードウェアで緩和を実装することで大幅に向上できることが示されています[^59]。これにより、エネルギーベースネットワークがバックプロパゲーションよりも高速になる可能性があります。したがって、私たちの発見が、現在のデジタルテンソルベースからアナログハードウェアに切り替え、脳に近づき、潜在的により効率的になる、次世代の機械学習ハードウェアの設計図を変更する可能性があると予想しています。
「Methods」に続きます。
Discussion