🤖
1X: All Roads Lead to Robotics
元の記事
- 著者は1XのAI部門のVPのEric Jang
- 2022年までGoogle ResearchのRobotics部門でSenior Research Scientistをしていた
- SayCanを開発したBrain Moonshotチームの共同リーダーをしていた
- 2022年までGoogle ResearchのRobotics部門でSenior Research Scientistをしていた
内容
- 全てのAIソフトウェアはロボット工学ソフトウェアに集約される
1Xの現状
- 1XのAIが達成した2つの大きなこと
- End-to-EndのNeural Networkのアプローチにより、コードを記述する速度より、高速に機能を拡張することができるようになった
-
このビデオに写っている全ての機能はコーディングによる実装ではなく、ロボットのオペレーションチームが収集してトレーニングしたデータから学習したモデルを用いて動かしている
- 入力を画像とし、出力をアクションとするNeural Networkを10Hzで動かし、台車、腕、グリッパー、胴体、頭を制御している
- 遠隔操作や定形動作の実行は含まれておらず、動画はカットせず倍速処理もしていない
- 上記のモデルを学習させるために、30台のEveを用いて多様なデータセットを作成した
- データセットを用いて学習させて、掃除から家の片付け、物の拾い上げ、人間や他のロボットとの交流まで、幅広い物理的動作を理解するベースモデルを作成した
- このモデルをFinetuningし、動作を特定のタスク(特定のドアを開ける等)に適用させた
- 数分のデータ収集とデスクトップGPUでトレーニングし、新しいタスクを実行することができる
- 学習はFinetuningのことを指している?
- End-to-Endのモデルの有用性が確認できたため、AIの技術者を増やし、ロボットと遠隔操作者の数を10倍に増やす予定である
- 1Xのロボットオペレータの募集要項を見ると、月額$6000~$8000なので、1人あたりのコストは年間$72000~$96000
- 現在最低でも1人いるとして、10人にした場合には$720000~$960000のコストがかかる
- オペレータが実際に言語で指令している様子
-
このビデオに写っている全ての機能はコーディングによる実装ではなく、ロボットのオペレーションチームが収集してトレーニングしたデータから学習したモデルを用いて動かしている
-
データさえあれば機能を実現することができるため、データ収集者が必要な機能を考えつつ、データを収集し機能を追加することができる
- データ収集者は、データの品質やロボットによるタスクを実現するために必要なデータ量に関するフィードバックを高速に回すことができる
- これにより、優れたモデルを作成するための時間を大幅に短縮することができる
- 優れたモデルへのデータとアルゴリズム影響度合いは次のように考えている
- データの質 > データ量 > アルゴリズム
- End-to-EndのNeural Networkのアプローチにより、コードを記述する速度より、高速に機能を拡張することができるようになった
- 現在はよりスケールアップするための課題について取り組んでおり、社内のLLMチームが取り組んでいる種類の課題との類似点が多くあることが分かった
全てのAIソフトウェアはロボット工学ソフトウェアに集約される
- これを提唱したのは、Nikolaus West
- Nikolaus Westは、rerun.ioのCEOでエンジニアリングもしている
- StanfordでCVを専攻していた
- Nikolaus Westは、rerun.ioのCEOでエンジニアリングもしている
- プログラムがエントロピーの源(現実世界)とやり取りする時間が長くなれば長くなるほど、プログラムの動作の正確さについて保証することは困難になる
- 上記は、ロボット工学だけでなく、AI関連のシステム(顧客サポートやUberの配車システム等)でも同様である
- よって、ロボット工学における問題は現在のLLMのようなモデルを現実世界に適用する際に生じる問題と本質的に同様である
ロボットを広く普及させるためにはどうすればよいか
- 3つのアプローチが考えられる
1. ソフトウェアのみでアプローチする
- ロボットを制御させるためのLLMのような大規模なモデルを構築する
- 構築できた場合には、全てのロボットハードウェアベンダーが自分立ちのロボットを適用させるために、モデルへのアクセスを求める
- 利点
- 他の誰も構築できないモデルを構築できれば、ソフトウェア構築へのハードルが上がるため、他の企業はモデル開発するよりもモデルの上に自分たちのアプリを開発するほうがビジネスになると判断する
- 欠点
- ハードウェアベンダーがデータを提供しない場合、その顧客もデータを提供しないので、モデルがスケールしづらくなってしまう
2. ハードウェアとソフトウェアを垂直統合し、規模を拡大する
- 存在するハードウェアで自動化されきれていない/されていない対象をソフトウェアで自動化する
- 利点
- 多くのロボット企業が上記の形で価値を提供しているため、前例が多い
- 欠点
- ニッチな市場/環境でしか動かすことができず、完全な汎用化が困難である
3. 汎用的なハードウェアとソフトウェアを0から作る
- 1X, Figure、Teslaが採用しているアプローチ
- 利点
- 理想的には適用市場が無限
- 欠点
- 誰も達成したことがないため、前例がない
余談
LLMの学習コスト
- 大規模なモデルを1回学習(ベースモデルの学習)し、アシスタント系のアプリやトークンの理解などの作業を行うため(特定タスクへのファインチューニング)には多大なコンピューティングリソースを必要とする
- ベースモデルの学習コストが飛躍的に高くなると、モデルの学習を実行するためのリソースは1回分しかないという状態になる可能性がある
- その場合には、下流タスクの可能性があるタスク全てに対して適用可能なベースモデルを検討する必要がある
- 大きなモデルを学習させるために支払ったコストに対して、十分なリターンを出す方法はまだわからない部分が大きい
- 1000万ドル相当のGPU時間からどのように利益を出すのか?
- そのため、上記のような大規模モデルの開発には、コンピューティングコストが最も低い企業が取り組むべきである
Discussion