Open6

Physical AI

bishopfuncbishopfunc

ロボットの種類

  • マニピューレーション: ロボットアーム
  • 自律移動ロボット: タイヤが付いてる
  • 歩行ロボット: 4本足のやつ
  • マルチエージェントロボット: 複数台で共同作業
  • ヒューマノイド: 人型ロボット

製造業と近く導入ハードルが低いものとしては
マニピューレーション・マルチエージェントロボット・自律移動ロボット

  • マニピューレーションと自律移動ロボットは一緒に考えることが多い、移動+手で何かをする
    • 機械学習や基盤モデルで近年話題のPhysicalAI
  • マルチエージェントロボットは物流で需要が多い
    • ヒューリスティックが強い印象

使用事例

  • マニピューレーション
    • 製造工場、ラボオートメーション
    • 設計/研究から製造/実験を一貫して自動化
  • マルチエージェントロボット
    • 製造工場、小売
    • 衝突しない最短経路を移動
  • 自律移動ロボット
    • 店内の在庫検査(PFN-MiseMise)、スーパー、駅(PFN-iNOh)、工事現場の洗浄(PFN-iNOh)、線路の検査(PFN)など
    • 人間が定期的に移動して行っていた単純作業を置き換えるイメージが多い
bishopfuncbishopfunc

ちょっと怒られる表現であるが
ルールベース→生成AI
みたいな構図で各分野の技術の発展をまとめると

プランニング

概要: どのように未知の状況で動作を実施するか
対象: ロボットアーム付き移動ロボット
例: キッチンに移動して、引き出しを開けて、ものを持ち上げる

従来: ルールベース/決められた状況下での機械学習
最新:

  • VLM/LLMによってテキストに変換し、状況によって判断
  • SSTモデルによって言語の指示が可能
  • マルチモーダルのきっかけになった論文

ナビゲーション

概要: 未知の地図でどのような経路でロボットを移動させるか、人や障害物を避ける

従来:

  • SLAM(自己位置推定・地図作成)を行う
    • Visual SLAM: 画像によってどこを通ったかのマップを作成、古典的な画像処理によって3次元を構成
    • Lidar SLAM: 点群同士をマッチングすることで移動量を逐次推定
  • 事前に地図を作成しておく

最新:

シミュレータ

概要: ロボットの学習はシミュレータで学習してから実機にモデルを転送

従来: CG技術によって厳密に再現されたシミュレータを利用

最新: 世界モデルによって、現実の観測を潜在空間に圧縮し学習を高速化する

動画生成モデルによって、現実の物理法則を再現した動画を生成可能

https://zenn.dev/mkj/articles/f24b078409459d

動作制御

概要: ものを持つ、持ち上げる、4足歩行など個別の動作を学習

従来: 制御工学/教科学習

最新:

  • 模倣学習で人間がロボットアームをコントロールしたデータを教師あり学習
  • LLMによるプランニングを上位、個別で学習した動作モデルを下位に起き、tool useのような考えで呼び出す
  • ロボティクス基盤モデルの学習済みの動作を利用する

認識

概要: ロボットを移動させる、ロボットに何かのタスクを実施させる際にどこに何があるか認識することが重要である。RGBD深度カメラ/単眼カメラ/LiDARなどを利用。

従来: 物体認識モデルなどを個別で学習

最新: 学習済みのVLM / SAM(Segment Anythong)による高精度な物体認識

転移学習

概要: 学習済みのモデルが未知のタスクにどのくらい汎用化

従来: 強化学習はシミュレータから実機でsim2realのギャップが問題があり、それのためにドメインランダム化などの追加で学習することもある

最新:

  • 複数種類のハードウェアで学習したロボティクス基盤モデルは、様々なハードウェアのタスクに転移学習可能
  • 学習済みのVLMにActionを出力する層(拡散モデル or Transfomer or 教科学習)でファインチューニングし、VLAを構築可能
bishopfuncbishopfunc

個人的な考え: 近年Physical AIが”流行ってる”のはなぜか

LLMの発展に見られた以下の特徴と共通してる

  • (GPU)があれば手軽に試せる
  • ファインチューニングすることで、個別のタスクに応用可能