【論文紹介】実世界における対話型AIアシスタントのためのデータセット:HoloAssist
この記事は Panda株式会社 Advent Calendar 2023 9日目の記事です。
Panda株式会社は東京大学松尾研究室・香川高専発のスタートアップで、AR技術とAI技術を駆使したシステム開発と研究に取り組んでいます。
このアドベントカレンダーでは、スタートアップとしての知見、AI・AR技術、バックエンドなど、さまざまな領域の記事を公開していきます。
自己紹介
Panda株式会社でAIに関すること全般を担当している仲地です。
普段は筑波大学で情報検索分野の研究をしている博士前期課程の1年です。
はじめに
この記事の想定読者は以下の通りです。
- 想定読者:AIを使った作業支援に興味がある人。
昨日の記事では、Metaの研究チームが公開したマルチモーダル&マルチビューなデータセットEgo-Exo4Dについて紹介しました。本記事では、Ego-Exo4Dと似たような目的を持って提案されたデータセットについて紹介します。今回紹介するデータセットは主にMicrosoftの研究チームによって作成されたHoloAssistというものです。このデータセットの論文を紹介します。
以下に、論文の書誌情報を記載します。
タイトル | HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI Assistants in the Real World |
---|---|
著者 | Xin Wang, Taein Kwon, Mahdi Rad, Bowen Pan, Ishani Chakraborty, Sean Andrist, Dan Bohus, Ashley Feniello, Bugra Tekin, Felipe Vieira Frujeri, Neel Joshi, Marc Pollefeys |
採択会議 | ICCV2023 |
論文リンク(arXiv) | https://arxiv.org/abs/2309.17024 |
論文リンク(CVF) | https://openaccess.thecvf.com/content/ICCV2023/html/Wang_HoloAssist_an_Egocentric_Human_Interaction_Dataset_for_Interactive_AI_Assistants_ICCV_2023_paper.html |
データセット入手先 | https://holoassist.github.io/ |
この論文がやったこと
- HoloAssistという作業者と指導者が共同して物理的操作タスクを行うための一人称視点のビデオデータセットの提案
- HoloAssistデータセットを用いたベンチマークタスク・ベースラインの提案
背景
近年、汎用的なAIエージェントがデジタル世界における様々なオープンワールド※タスクを支援する分野で顕著な進歩を遂げています。特に、ChatGPTのような、大規模言語モデルを活用したAIシステムが、ユーザーの質問に答えたり、テキストベースのタスクを支援したりする能力を示しています。
しかしながら、これらのAIアシスタントは物理世界における直接的な経験が不足しているため、世界の状態を十分に知覚し、作業プロセスに積極的に介入する能力に限界があります。この問題に対処するため、物理世界で知覚、推論、相互作用を行うAIアシスタントの開発に関心が高まっています。
そのため、この研究は、物理世界での人間の行動や環境との相互作用をより深く理解し、AIアシスタントがより自然で効果的に人間と協働できるようにすることを目的としています。
※オープンワールド=実世界のような変化に富んだ、予測不可能な要素を含む設定。尚、この説明は[1]より本記事著者が独自に解釈した説明なため、誤ってる可能性があります。
HoloAssistデータセットについて
画像1:論文中のFigure1上部を抜粋。作業者とオペレータが共同して作業している様子の例。
HoloAssistデータセットは、作業者(※論文中では「Task performer」とされてますが、本記事では「作業者」と呼びます。)と指導者(Instructor)が共同して物理的操作タスクを行うための一人称視点のビデオデータセットです。このデータセットは、現実世界におけるAIの作業支援の実現を目的としています。
HoloAssistデータセットには、222人の多様な参加者によって形成された350組の指導者と作業者のペアが、20種類のオブジェクト中心の操作タスクを実施しながら166時間分のデータが収集されています。これらのオブジェクトは、一般的な電子機器から工場や特殊研究室で使用される珍しいオブジェクトまで様々です。タスクは初めて行う作業者にとって一般的に挑戦的な内容となっており、成功するためには指導者の支援が必要です。
データの収集方法についてですが、画像1のように作業者はARヘッドセット(※HoloLens。Microsoftが開発したヘッドセット)を頭部に装着し、このヘッドセットを用いてタスクを行いながらデータの収集が行われました。指導者は作業者のタスク実行中に、一人称視点のビデオをリアルタイムに視聴しながら、作業者に対して口頭で作業に関するガイドを行います。
収集されたデータには、RGB、深度、頭部ポーズ、3D手ポーズ、視線、オーディオ、IMUといった7種類のモダリティが含まれています。
HoloAssistデータセットは、撮影されたビデオに対して、第三者による手動アノテーションが提供されています。以下にその詳細を示します。
- Language annotations:アノテーターはビデオ全体を見た上で、ビデオ内の全ての活動を記述するためのパラグラフを書きます。この記述は、手順内の手の動きに焦点を当てています。第三者による事後的な要約は、対話的なタスク完了中の重要な瞬間についての洞察を提供し、タスク完了のための包括的な指示を構築するのに役立ちます。
- Coarse-grained action annotations: Coarse-grained action(※粗い粒度の行動)は通常、タスク内の高レベルのステップを記述し、複数のFine-grained action(※細かい粒度の行動)に分けることができます。例えば、GoProのセットアップタスクでの「GoProのバッテリーを交換する」というアクションは、「バッテリーを交換する」という動詞と名詞のペアで表現されます。データセットには414の粗粒度アクションが含まれ、90の名詞と39の動詞が使用されています。
- Fine-grained action annotations: Fine-grained actionは、タスクのステップを完了するための低レベルの細かいアクションです。例えば、「ボタンを押す」、「ネジをつかむ」といった動作がこれに該当します。これらは動詞(形容詞)-名詞のペア形式で提示され、1887の微粒度アクションが含まれています。
- Mistake annotation: 前述したFine-grained actionは、正しいか誤りかとしてラベル付けされます。誤りには、「self-corrected by the task performers(※作業者による自己修正)」、「verbally corrected by the instructors(※指導者による口頭での修正)」、「are not corrected labeled(※修正されていない)」とラベル付けされたものが含まれます。
- Intervention annotation: 指導者と作業者間の会話が記録され、この会話履歴に対してタスク完了における指導者の介入のアノテーションを行います。会話の各文は、会話のタイプ(例:間違いの修正、質問への回答)と会話を開始した人物(作業者または指導者)で分類されます。
以上のようなアノテーションがビデオデータに対して行われます。
HoloAssistデータセットからの知見
この論文中では、HoloAssistデータセットの作成方法だけでなく、データセットから得られたデータに関する観察結果についても言及があります。
以下にその観察結果について記述します。
- Correlation between mistakes and intervention: 指導者が作業者の作業に介入して誤りを修正する反応時間は、誤りの重大さに依存します。重大な誤りの場合、指導者は即座に(5秒未満)介入し、他の誤りは作業者によって自己修正されるか、後で指導者によって修正されます。また、順序通りにステップを踏まないとタスクの進行が止まるようなタスクは、指導者によって直ちに介入される傾向があります。一方、家具組立などの誤りは段階的に明らかになり、作業者が直感的にステップを調整することが多いため、後で修正されることが多いです。
- Grounded guidance: これは指導者が物理的な3D環境に基づいて、具体的で文脈に沿った指示を提供する能力を指します。空間的指示は、空間内の物の位置を特定し、方向や距離を表現するために使用されるフレーズを指します。例えば、家具の組み立てを指導する際に、指導者が「そのネジを左の穴に差し込んでください」といった具体的で状況に即した指示をすることがこれに該当します。このような指導方法は、作業者に対してより明確で理解しやすい指示を提供することができ、タスクの効率と正確性を高める助けとなります。HoloAssistに含まれる会話履歴の分析により、この種の指示が特に誤りを修正する際の介入で広く使用されていることが明らかになっています。
ベンチマークタスク
この論文では、前述したデータセットの観察結果から、ベンチマークタスクの提案も行なっています。ベンチマークタスクには、AIアシスタントが物理世界の状態を正確に把握し、誤りを検出し、介入するかどうかを予測する能力の評価が含まれます。
以下にそのベンチマークタスクについて記述します。
- Mistake detection: このタスクは、Fine-grained actionクリップの特徴を利用して、アクションが正しいか誤りかを予測します。誤りクラスの分布は極端に偏っており、Fine-grained action全体の約6%が誤りとされています。
- Intervention type prediction: 介入されるの1秒前、3秒前、または5秒前のウィンドウから介入タイプを予測するタスクです。HoloAssistで新たに提案されたこのベンチマークタスクは、モデルがタスク完了中に正しい介入タイプを適切に判断できるかをテストします。現在、HoloAssistには3種類の介入タイプ(Correcting Mistakes:間違いの修正、Following Up with More Instructions:追加指示のフォローアップ、Confirming Previous Actions:以前の行動の確認)が含まれており、各介入タイプの精度と再現率が報告されています。
- 3D hand pose forecasting: 既存のアクション予測作業は、未来のアクションの意味的ラベル(そのアクションがどういうものか示すラベル。例:「つかむ」、「指を差す」など)を予測することに焦点を当てていますが、3Dハンドポーズについての明示的な指導は提供していません。3Dハンドポーズの予測は、異なるタスクでユーザーを空間的に導くための指示をAIエージェントが予測することに役立ちます。このベンチマークでは、3秒間の入力を取り、次の0.5、1.0、1.5秒間の連続する3Dハンドポーズを予測します。3Dアクションガイダンスに役立つ適切に評価を行うために、誤りのあるアクションを除外し、正しいラベルの3Dハンドポーズのみを予測します。
以上のようなベンチマークタスクの提案が行われています。
おわりに
今回は「【論文紹介】実世界における対話型AIアシスタントのためのデータセット:HoloAssist」というテーマでPanda株式会社 Advent Calendar 2023 9日目を執筆させていただきました。
本記事では、HoloAssistという作業者と指導者が共同して物理的操作タスクを行うための一人称視点のビデオデータセットと、このデータセットを用いたベンチマークについて紹介しました。
明日は、Panda株式会社代表田貝による『「Ultra Form」でフォーム営業に革命が起こった話』です。お楽しみに!
参考文献
[1]: 中山英樹. オープンワールド認識理解のための機械学習と評価. 日本ロボット学会誌. 2016, 34(6), p.382-385. https://www.jstage.jst.go.jp/article/jrsj/34/6/34_34_382/_pdf, (参照 2023-12-09).
Discussion