👯
deepseekとsakana.ai 最近思ったこと(暫定)
前書き
deepseek と sakana.aiが最近やったことが似ている。特にGPU周りに注目していることが、世の中の動きも表しているのかな?とか思った。GPUはよくわかってないが、とりあえず記事にして、あとで修正、更新していきたいな思ってます。
こう理解していること、おもろいとこ、思ったこと(間違っているかも)
両社共通
- 特異値分解をして、データ量削減(計算コスト削減につながる)、頑健性向上をしている
- GPUの計算部分に注目。GPUはCPUに比べて、chip面積あたりの(行列)計算等単純な要素の数が多いが、特にスケジューリング(計画)するための部分が貧弱なところを人の設計でカバーしている?(特にdeepseek)
deepseek
- GPUの計算力あげるのに、特にGPU間でのデータ転送のNVlink(物理的にすでに高速)の待ちを処理を細かくしたり、さらに細かくした順番を最適化したり、その順番をさらに2方向にするなどして、待ち時間(バブル)を減らした。
- バブル減らす為、CUDAにあたる部分を、アセンブラで独自作成した。NvidiaCUDAチームよりすごい可能性。ライブラリ化するよりは簡単だと思うが。
- これは、DeepSeekショックで、Nvidia株が何十兆円?一日で下がった時は、少ない学習ですごいモデルできたからGPUあまりいらなくなるみたいな話聞いたが、Nvidiaの強さは、GPUのハードでなく、CUDAが参入障壁になっていると考えられていたから、この話で落ちたのかもと思った。
sakana.ai
- AI Sientistが書いた論文が査読通ったとのこと! (´▽`)
- cuda kernelでAIに速いコード作ってもらおうとしたら、計算しないで、計算済みメモリを参照してたみたいな話で炎上した。対比学習のBYOLで、同じように目的と違う形にならないかと今日思った。負例を使わない、常にクエリと正例の特徴ベクトルを常に近ずけようとするBYOLも単純に考えると、いい特徴表現を得るのが目的のところ、同一点を常に吐き出す特徴崩壊が起きそうにも思えた。しかし毎回ペアが変わる為、そうなる確率はめっちゃ低いのだろうなと思った。
- 去年のAI Sientistにdeepseekのモデルも使ってたから、sakana.ai側が注視してそう。
あとがき
記事よかったら、いいね♡ 押してね!
Discussion