🤖

Open-TeleVision: Teleoperation with Immersive Active Visual Feedback

2024/07/07に公開

https://robot-tv.github.io/
https://youtu.be/d9EQDjU1gyQ

Overview

  • 没入型の遠隔操作装置の提案
    • VRデバイスにロボットのステレオカメラ画像を投影し、より直感的な操作ができるようにした
    • また収集したデータを用いてACTを学習させる際に、1枚の広い画角の画像を使用するより、ステレオ画像を使用した方が成功率が向上した
  • ハードウェアソフトウェアがOSSとして公開されている
    • 公開されているハードウェアは、ロボット(H1とGR-1)を除いた部品
    • ライセンスはCC BY-NC 4.0で、営利使用は不可

Introduction・Related work

TeleVision System

  • web serverにはVuerを使用している
  • VRデバイスから、手と頭、手首の姿勢を取得しServerに送信している
  • ロボットからは、480x640のステレオ画像をServerに送信している
  • 全体的な制御周期は60Hz
  • IKはPinocchioで解いている

Experiments

  • 次の2つの観点に注目し、実験を行った

    • 模倣学習のパフォーマンスに影響するキーポイントはどのような要素なのか?
      • → 提案手法の中ではステレオ画像を入力画像とすることが重要
    • 効率良くデータ収集するためにはどうすればよいか?
      • → あまり言及されていない?
      • 効率よく計算資源を使用するためには、頭を動かし適切な視野角を設定することが重要であることは言及されている
  • 実験では模倣学習のアルゴリズムとして2つの変更を入れたACTを使用した

    • ACT:Action Chunking with Transformers
      • ALOHAで提案されているアルゴリズム
    • 1つ目の変更は、バックボーンはResNetではなく、DinoV2を使用している
    • 2つ目の変更は、transformer encoderの入力画像に4枚のRGB画像ではなく、2枚のステレオ画像を使用している
    • DinoV2では各画像に対して、16x22のTokenを出力する
      • このTokenはロボットの現在の関節角度に投影される
        • 使用するロボット(H1, GR-1)によって異なる
      • Action Spaceとして、絶対関節値を使用している
  • 実験では4つのタスクを実行した

    • Can Sorting
    • Can Indertion
    • Folding
    • Unloading
  • それぞれのタスクでは、タスクを実行するために視野範囲を移動させる必要がある設定にしている

    • 頭を動かさないと、適切な視野範囲とならないようにしている
  • また、オブジェクトの配置位置もランダムで置いている

  • Can Sorting

    • 10個の缶(5個のSprite、5個のコーラ)を整理することを1エピソードとした
  • Can Insertion

    • 缶を拾って、缶の型が合う箇所に挿入していくタスクで、6個の缶を挿入することを1エピソードとした
  • Folding

    • タオルの片方の2つの頂点をそれぞれつまみ、もう片方の2つの頂点に合わせることを1エピソードとした
  • Unloading

    • 右手で筒を取り出し左手に持ち替え、特定の場所に挿入するタスクで、4つの筒を4つのスロットに挿入することをを1エピソードとした

Imitation Learning Results

  • アブレーションでは、使用したアルゴリズムから変更した部分を無くし評価した
    • バックボーンをResNet18にした場合、入力画像でステレオ画像を用いる部分に左側の画像だけ使用する場合の2パターン
  • 全てのモデルは5e-5の学習率でAdamWで最適化し、バッチサイズは45、イテレーションは25Kとし、1枚のRTX4090で学習した
  • Can Sortingのみ、H1とGR-1の両方で実行し、他の3つのタスクはH1だけで実行した
  • オリジナルのACTの実装では、空間情報を補うために4つの画像を用いていたが、今回の実験では2枚のステレオ画像をを使用しているため、ResNetのバックボーンだと空間情報の取得がより困難になる可能性がある

  • Can Sorting
    • Appedinxに10個のデータから学習したと記載されている
    • H1の結果
      • ステレオ画像ではない入力画像を使用した場合、暗黙的なDepth情報が得られないため、缶のPickupに失敗しやすい
      • またソーティングも、Pickupが失敗してしまうと、第3者が介入する必要があり、推論画像の精度が低下する
    • GR-1の結果
      • Pickingは良いパフォーマンスだが、Placingの結果が良くなかった
      • この結果はハンドとグリッパーの形状の違いにあると考えられる
        • ハンドとグリッパーで缶を掴んだ際のオクルージョンが変わるため、失敗しやすくなる
          • Appedixにおいて追加実験について述べられており、ラベル付きの缶を使用すると成功率が大幅に改善したという記載がある
      • またACTのChunk sizeによる影響も考えられる
        • Chunk sizeは60にしており、推論は60Hzで実行していたが、この長さだとPickupした際の缶の色を忘れてしまっている可能性がある
  • Can Insertion
    • Appedinxに20個のデータから学習したと記載されている
    • ステレオ画像無しだと、適切な缶の掴む位置を掴むことに失敗しやすかった
  • Folding
    • Appedinxに20個のデータから学習したと記載されている
    • ステレオ画像無しだと、手先を強くテーブルに押し付けてしまいタオルを上手く動かすことができなかった
  • Unloading
    • Appedinxに20個のデータから学習したと記載されている
    • ステレオ画像無しだと、筒とハンドの相対姿勢の姿勢を正確に推定することができないため、筒の取り出しに失敗しやすい

Generalization

  • 汎化性能については、ある条件をランダムにすることにより評価した
  • H1を用いたCan Sortingのタスクにおいて、間隔を30mmとした4x4のグリッドの各点に缶を置いた際のPickingの成功率を確認した
    • 結果として幅広い範囲を網羅することができると記載されているが、成功率が0の箇所も存在する

Why Use Active Sensing?

  • 視野角が広いカメラと、提案手法である頭を動かすことで広範囲な視野範囲を獲得し、注目領域をクロップする方法を比較した
  • 1つの視野角が広いカメラの場合は、PoI(Point-of-intrest)が見切れてしまう場合がある
    • この場合には、複数のカメラを使用するかもしくは、タスクごとにカメラの取り付け位置を調整する必要がある
  • また、視野角が広いことにより関係が無い情報も撮影してしまうため、学習や推論時の計算コストが上がってしまう問題もある
    • 提案する手法と比較すると、視野角が広いカメラの場合、2倍の学習時間および推論時間が必要になる
      • 画像サイズを4倍にしているから計算時間が2倍になっている?とすると、視野範囲の問題ではない可能性がある
  • 位置が固定されたカメラの場合、操作者の焦点が合いやすい画角中心にPoIが無い場合もあるため、操作が直感的ではなくなる

Teleoperated Perfomance

  • 3つの遠隔操作タスクを追加で実行した
    • Wood-board Drilling
      • 1Kgのドリルを持って、木の板に穴を開ける
    • Earplugs Packing
      • 耳栓を拾ってスロットに入れる
    • Pipette
      • ピペットで液体を抽出し、試験管に入れる
  • H1のモータはバックラッシがあり、また剛性や正確性が少ないことによらず、上記のタスクを実行することができた
    • それぞれのタスクの成功率や実行時間は記載されていない

User Study

  • 4人の操作者に試してもらい、VRデバイスでステレオ画像を見ながら操作する方法を評価した
    • 操作者の対象は20~25歳の学部生
    • 全てのタスクにおいて、だいたい5分くらいの習熟時間を与えて観測した
  • 1つのカメラからの画像よりステレオ画像の方が、タスクの実行時間と成功率において良い結果を示した
    • また、操作者からもステレオの方が使いやすいという定性的な意見もあった

Appendix

Discussion on Comparing with Prior Teleoperation Systems

  • Actuation
    • 様々なアプローチが存在するが、モーションキャプチャーのグローブを使用する方法が最も直感的であると考えるが、商用のグローブはコストが高い上に、手首の姿勢推定ができない
    • ALOHAは成功していが、エンドエフェクタはグリッパーのままであり、Joint-copyingシステムはハンドの操作まで拡張できていない
    • VR機器の発展により、VR機器に搭載されているセンサーから得られた情報から実行されてるハンドトラッキング等の機能の精度も向上しているため、より遠隔操作に使用しやすくなっている
  • Perception
    • 認識は重要な部分であるがあまり研究されていない
    • 多くのシステムでは、操作者自身の目でロボットの作業空間やロボットを認識している
      • 人間は先天的にステレオ視しているため、Depth情報が組み込まれている
    • ただし直接見るような構成にしてしまうと、距離が離れた遠隔操作は実施できない
    • そのため提案しているようなステレオ構成の方が距離が離れた遠隔操作に適している

Experimental Details and Hyperparameters

Hyperparameters

  • タスクにより、ACTのChunk sizeを変更している
    • Can Insertionを除いたタスクでは全て60に設定しているが、Can Insertionでは1100に設定している

Discussion