😁

AI Scientistが書いた論文!いいね!

2024/08/20に公開

話すこと

  • AI Scientistが書いた論文について
     自分がこう理解したこと、各論文は本文にでてきたところからの読取り(付録はみていない)

読者対象

  • AI scientistどんな論文書くの?が気になる人

選ばれた10論文

  • 拡散モデル、言語モデル、Grokkingの3分野を4モデルで計292論文作ることができた。よくできたのを選んだわけでなく、コメント的に言いたいものがあるのが選ばれたようだ。

拡散モデル

  • 統計的評価

  • templateについて
    低次元データの拡散生成モデルのパフォーマンス向上を研究する。

  • 論文1 : DualScale Diffusion: Adaptive Feature Balancing for LowDimensional Generative Models.低解像度画像の精度向上案みたい。グローバル処理ブランチとローカル処理ブランチに分割するデュアルスケールのノイズ除去アプローチを提案。時間経過に伴う重み付けの変化をプロットもしている。

  • 論文2 : Multi-scale Grid Noise Adaptation: Enhancing Diffusion Models
    For Low-dimensional Data.学習した乗法係数を使用して標準拡散ノイズ スケジュールを動的にスケーリングすることを提案。性能大幅に向上した。

  • 論文3 : GAN-Enhanced Diffusion: Boosting Sample Quality and Diversity 生成を導くために拡散モデルに識別器(GAN)を追加することを提案

  • 論文4 : DualDiff: Enhancing Mode Capture in Low-dimensional Diffusion Models via Dual-expert Denoising.最初に取り上げた拡散論文と同様のアイデアの2 人の専門家の多様性を促進する損失が追加。

言語モデル

  • 統計的評価

  • templateについて
    トランスフォーマー次トークン予測タスクを調査。広く研究され最適化されているため、AI Scientist が大幅な改善を見つけるのは困難です。テンプレートのアイデアのいくつかは、リークするものがあるみたい。

  • 論文1 : StyleFusion: Adaptive Multi-style Generation in Character-Level
    Language Models.トークンごとに学習された「スタイル アダプター」が各レイヤーで Transformer の状態を調整します。強力な結果を達成。

  • 論文2 : Adaptive Learning Rates in Transformers via Q-Learning. オンライン Q 学習アルゴリズムの使用を提案。状態は現在の学習率と検証損失で構成され、アクションは学習率に小さな摂動を適用し、報酬は検証損失の負の変化です。いい結果を示す。

Grokking : 過学習を示したあとしばらくして精度があがること

  • 統計的評価

  • templateについて
    「グロッキング」を分析。あまり理解されていない現象。精度の改善のみを試みることよりも、オープンエンドの経験的分析 (グロッキングが発生する条件など) に適するように作られている。

  • 論文1 : Unlocking Grokking: A Comparative Study of Weight Initialization Strategies in Transformer Models. Xavier と直交重みの初期化は、ベースライン重みの初期化 よりもGrokkingを高速化することがわかった。独創的でキャッチーなタイトルも付いている。

  • 論文2 : Grokking Accelerated: Layer-wise Learning Rates for Transformer Generalization.上位レイヤーの学習率を上げると、Grokkingを高速化することがわかった。

  • 論文3 : Grokking Through Compression: Unveiling Sudden Generalization via Minimal Description Length. Minimal Description Length (MDL)がGrokkingと関係ありそうと調査。結果はでていないが、アイデアは面白そうとのこと。

  • 論文4 : Accelerating Mathematical Insight: Boosting Grokking Through
    Strategic Data Augmentation.データ拡張するとGrokkingを高速化することを確認。当たり前?

論文情報・参考資料・次に読む?記事

天才は芸術が好き!

ノーベル賞を取る人は、芸術を楽しんでいる人が多いらしい。芸術は天才が作り、それを天才が深く理解して、別の分野のアイデアで活かすからか? 
一回のLLMの推論で、芸術から何かを学び、目標のタスクに活かすはまだできなさそう。
でも、天才の思考を想像でも細分化したらプロンプトテクニックで実現できるかもと思った。

この10論文はよくできていると思うが、天才的発想だとは思えなかった。
アルファ碁の手が、プロからも創造的だ!とおもわれたように、データサイエンティストが、そのアイデアがあったか!と驚愕するようなのがでてくるとさらに面白い!

あとがき

記事よかったら、いいね♡ 押してね!

Discussion