🎮

ダーツ旅楽しい!⚄さいころ振って視よう!

2025/03/10に公開

感想(自分の理解、印象)

  • 表題のAIのMicrosoftのサイト記事とNature載った論文読んだ!かっこいい!
  • 産休から戻ったチームリーダーが、ChatGPTが魅せた生成モデルが大量のテキストを学習したときの成果をみて、VideoGameに適用したら何が起こる?との想いから始まった!
  • 創造的な仕事を支援するために、どんな機能が必要かを、インタビュー等で調査して、ニーズを実装しようとする姿勢が、こちらの機能で性能上げました的な論文と一味違う。まさにイシューから始めよ。
  • ただ、創造的とはの定義や、創造的になるための研究の一環的な位置付けになるとも思えた。
  • CEOの言葉がかっこいい It’s hard to know what the right output is until we see it. we just know something’s off and we tweak. おかしいことだけわかる、その時は何か少し変えてみるって意味かな?と。繰り返し探求する情熱を感じる!
  • ただ、そのやり方が効果的な人、場合もありそうだなと思うと同時に、天才は、試行錯誤するのか?エジソンは努力が99%とか言った?とか思った。
  • WHAM(World and Human Action Models)に世界だけでなく、人間行動ってあるけど、単に世界だけでいい気もしたが、ゲームの世界の外側にいる遊ぶ人は、その世界にしばられないから、人間行動といれてるんだろうな思った。
  • インタビュー先にカメルーンが上がってた。以外。サッカー強いイメージしかなかった。
  • MUSEは、ギリシャ神話の芸術と学問を司る9人の女神 Muses から名前つけたのかな

1. どんなもの?

  • ゲームの世界に応じたゲーム動画とコントローラー動作を生成でき、いろんなパターンも作れ、編集したらそれに応じたゲーム画面(ビデオ)を生成することによって、ゲーム開発者のアイデアだし等を促進するもの。
  • 3重視点からTransformerを(改めて?)選んだとのこと。GAMEでもスケーラビリティがあることも確認。
  • ゲーム画面は、VQGANで、語彙数16384で540トークンへ、コントローラーも元々連続値の部分も68語彙数かな?で16のトークンへ(1.6Bモデルの場合) 
  • a)一貫性 : ゲーム世界の物理に従って階段を上る。b)多様性 : 3つ異なる動画。c)永続性 : ユーザーの見た目等変更を永続化。

2. 先行研究と比べてどこがすごいの?

  • Game開発者のニーズを調査して、アイデアをだすのを助けるAIができた。

3. どうやって有効だと検証した?

  • 一貫性は Fréchet Video Distance (FVD) で計測
  • X軸はFLOPSで少し?だが、計算量ってことだと思う。大きなモデルで計算量増えれば精度あがっている。
  • bは、2つの動画が、それぞれ一貫性を保持している例
  • 多様性は、Wasserstein distanceで計測
  • こちらもモデルが大きく、計算量が増えると精度上がる。
  • up-weightedは、コントローラーのlossの重みを画像トークンより上げているもの。1.6B モデルでは、画像のエンコードに多くのトークンを使用しているのを軽減するため。
  • bは、スポーン場所を周回するか、ジャンプパッドにまっすぐ向かうか、ホバーボードのスキンが異なると行動と見た目が異なる動画だしている。
  • 永続性は、編集して、保たれるか目検した。上段:power cell, 中段:敵, 下段:Jumppad をいれると10step後も残る。敵は攻撃始める。Jumppadは、学習データには存在していなかったのに。

4. 性能を上げるために考えたこと

  • VAR(Visual Autoregressive Modeling) を単純に1画像の部分だけでも適用、もしくはもっと高度に適用したら、速く、精度上がりそう (B⇒C)
  • 1.6Bのモデルで5560コンテキスト長(1秒対応)だが、スケーラビリティ確認しているから、単にで書くして性能あげて、予測できる時間も延ばせそう
  • 最近でたすごい物理エンジンGenesisと組み合わせたら、よりリアルな動画になりそう
  • 画像のデータ拡張していないみたいだが、ゲームとして意味あるデータ拡張は、制限されそうだけど、なかには、適用しても良さそうなものもある。データ拡張使って一貫性は少し手間かかりそうだけど。
  • 拡散型大規模言語モデル Mercury の仕組みを使って、トークン化したあとまた部分的に拡散モデルの仕組みいれても面白そう。全く詳細な構造浮かんでいないけど。
  • 芸術的な創造性とか考えると、chipより人間のほうが高いとも思える、特に現時点では、そこで、最近出た商用バイオコンピューター(CL1)、人間の脳神経細胞を使用した合成生物学的知能(Synthetic Biological Intelligence、SBI)を組み合わせる未来も面白そう!

5. 他への適用

  • この論文を勉強会でLTしたとき、コントローラ-の行動を入力としているように、腹腔鏡の手術の器具を操れるのでは?みたいなこと話された医療関係の方がいました。今、手術は基本動画録画されているらしいのは、応用しやすそう。
  • 学習データ集めるのに、器具にセンサーつけられるのかな?学習集めにいいセンサー必要ですね。
  • それを聞いて、こんな行動したら、どういう結果になるかとかいろいろシュミレーションでき学習にも使えそうだなと思った。

6. 疑問

語彙が16452あるが、16384で抑えれば、14bitで済みそうなのに、何でかな?

後日談

  • ゲーム開発のリーダー的な人に話きいたら、その人は、このような試行錯誤では、売れるゲームは作れない感覚みたい。そうかもなと思ってもいたが、そうなのか。ちと残念。Micrsoft調査は建前?
  • 14bitの疑問は、14bitに抑えても、それがそのままネットワーク流れるわけでもないと思うので、ピッタリ14bitで抑える意味はないのかなと自己判断している。

関連記事

いい課題を見つけ!すごい成果へ!
MUSE論文 Nature
MUSE公式記事 Microsoft Research

あとがき

記事よかったら、いいね♡ 押してね!

Discussion