Continuous Thought Machines 暫定

に公開

初めに

Continuous Thought Machinesを途中まで読んだ。おもろい
長い、むずい、頭が柔らかくなる気がする。
自分の今の理解で記事書く!

1. どんなもの?

  • sakana.aiが、今の単純なTransfoermerモデルをより生物の脳に近づけたらどうなるか試行しているもの、特に時間の概念を入れた!

2. 先行研究と比べてどこがすごいの?

  • チャレンジしている
  • まあ 脳にAI近づけようとはいろんなとこしてるんだろうけど、こんなレベルで形にしているのはあんましないのではと知らないだけかもだが思う

3. 技術や手法の"キモ"はどこにある?

  • 以下のように、ちょっと自分はみたことないモデル
  • ニューロン毎にモデル持っているとのこと。通常のトークンを埋め込んだ要素を変換するモデルが1:1であると理解した。かつそれを前後で履歴取っている(今使い方わからん)
  • それぞれのモデルをだしたのを多分、同期行列で混ぜて、潜在空間をつくり、一部が出力、一部がデータとのアテンションで次の処理の潜在空間となる?と理解。

4. どうやって有効だと検証した?

以下のようにたくさんの実験して章毎に説明、それぞれ小さいタスクみたいだが、面白い結果でているもよう。(右の番号は章、左の番号はページ)
3 ImageNet-1K classification 11
4 2D Mazes: a setup that requires complex sequential reasoning 16
5 CIFAR-10: the CTM versus humans and baselines 20
6 CIFAR-100: ablation analysis 23
7 Sorting 24
8 Parity 25
9 Q&A MNIST 28
10 Reinforcement learning 31

思ったこと

  • コンピューターパワーがやっぱり重要になる
  • GPU健在?それとも、新しいデバイスがでてくるか?
  • 適応的推論(むずいのは何回も処理する)とかでてくると、トークン数の価格から、難しさ、計算コストでの価格のサービスがでてくるかも
  • 概念的には時間って大事だけど、単に何回イテレーション回すかの話?
  • これよんで、もっと柔軟にモデル考えよう、実装はあとでとおもったらいろいろ案が浮かぶ。どこかの組織で自分リーダーor案を考える人にして新モデル作らせてくれたら面白いのできそうな気がする。すくなくとも論文の査読は通るはず!
  • Transformerの延長でも人間のFMRIの画像と比べる論文とかでていること今日知ったが、まだまだ、人間に近づいていくのだろうけど、どっかで基本構造として、時代遅れになるんだろうなと思う
  • 時間概念をとりいれるって、その通りかもしれないし、実装には新しいこといろいろしているけど、もっとも重要な概念は繰り返し重みでの計算をしていることだと思った。ここでおもったのは、画像のネットワークみて、繰り返しつかっても面白そうと自分は思ってたこと、多分LLMの再帰的にやるのを見る前のずっと前に思ってた。モデル改良の実装はできなくてもアイデアはやっぱり浮かぶと言える
  • やっと8ページ読んだ!びっくりなのでは、post activation のデータ、ずっと履歴もつつもりみたい。まあでもLoop回数が有限なんだろうけど

あとがき

記事よかったら、いいね♡ 押してね!

Discussion