NVIDIA VSS、お前は何者だ?動画AIエージェントの本丸登場
はじめに:NeMoの「その先」へ
映像解析はAIでどうすればいい?
監視カメラの映像を自動で要約したい。倉庫の作業動画から異常を検出したい。何時間もの会議録画から「あの発言どこだっけ?」を一発で見つけたい。
そんな欲張りなあなたに朗報だ。**NVIDIA VSS(Video Search and Summarization)**という、動画AI界の「究極兵器」が存在する。
VSSは、NeMoの音声技術をベースに、Vision Language Model(VLM)、LLM、RAGを統合した動画解析パイプライン。要するに、映像を見て、音声を聞いて、理解して、答えを返すAIエージェントを構築できる。
今回は、このNVIDIA VSSの正体と、その仕組み、そして「何ができるのか」「どう使うのか」を徹底解説していく。
ねらい
- NVIDIA VSS(Video Search and Summarization)の全体像を理解する
- VSSのアーキテクチャ(Ingestion Pipeline、Retrieval Pipeline)を把握する
- CA-RAG(Context-Aware RAG)の仕組みを知る
- VSSの実用的なユースケースを理解する
対象読者
- 動画解析AIに興味があるエンジニア
- NeMoを知っていて「次のステップ」を探している開発者
- 監視カメラ、倉庫管理、スマートスペースなどの領域でAIを活用したい人
- 生成AIを使った動画検索・要約システムを構築したい人
ゴール
この記事を読み終えた後、あなたは:
- NVIDIA VSSが「何をするもの」かを説明できる
- VSSのパイプライン構成(Ingestion + Retrieval)を理解している
- CA-RAGがVSSでどう機能するかを把握している
- Docker ComposeでVSSをデプロイする手順を知っている
- VSSの具体的なユースケースをイメージできる
TL;DR
NVIDIA VSSとは:
- Video Search and Summarizationの略
- 大量の動画(ライブストリーム、アーカイブ)を取り込み、要約・Q&A・アラートを実行するAIエージェント Blueprint
- VLM + LLM + RAGの統合パイプライン
- NVIDIAのMetropolisプラットフォームの一部
主要コンポーネント:
- Ingestion Pipeline:動画をチャンクに分割し、VLMでキャプション生成、ASRで音声文字起こし
- Retrieval Pipeline:CA-RAG(Context-Aware RAG)でベクトルDB + ナレッジグラフから情報を検索・生成
- 使用モデル:Cosmos-Reason1(VLM)、LLaMA 3.1 70B(LLM)、Parakeet-CTC(ASR)
何がすごいのか:
- 自然言語で動画に質問できる(「赤い車が事故を起こしたのは何分頃?」)
- 数時間の動画を数分で要約
- リアルタイムストリームで異常検出・アラート
- GPU最適化で最大100倍の高速化
厄介な点:
- GPUリソースが必要(H100推奨、最低でもA100 80GB)
- NeMo同様、依存関係が複雑
- 公式サポートはLinuxのみ
解決策:
- Docker Composeでデプロイ(公式サンプルあり)
- Helm Chartで本番環境にデプロイ
- NVIDIA API Catalog経由でリモートエンドポイント利用も可能
1. NVIDIA VSSってなんだ?
基本情報
- 公式ドキュメント: https://docs.nvidia.com/vss/latest/index.html
- GitHub: https://github.com/NVIDIA-AI-Blueprints/video-search-and-summarization
- NVIDIA API Catalog: https://build.nvidia.com/nvidia/video-search-and-summarization
- ライセンス: Apache 2.0(一部NIMはNVIDIA AI Enterprise)
VSS(Video Search and Summarization)は、NVIDIAが提供するAI Blueprintの一つだ。「Blueprint」とは、特定のユースケースに対応したリファレンスワークフローのこと。
公式ドキュメントより(原文):
"Video Search and Summarization (VSS) Agent Blueprint demonstrates Video Summarization, Q&A, and alerts with accelerated performance on NVIDIA hardware."
(日本語訳)
「VSSエージェント Blueprintは、NVIDIAハードウェア上で高速化されたパフォーマンスによる動画要約、Q&A、アラートを実現します。」
VSSが解決する問題
従来の動画解析は「固定機能モデル」が主流だった。特定のオブジェクト(人、車、顔)を検出するだけ。「何が起きているか」を理解するには、人間が映像を見るしかなかった。
VSSは、Vision Language Model(VLM)の力でこれを変える。
GitHub READMEより(原文):
"The NVIDIA AI Blueprint for Video Search and Summarization addresses the challenge of efficiently analyzing and summarizing large volumes of video data. This can be used to create vision AI agents, that can be applied to a multitude of use cases such as monitoring smart spaces, warehouse automation, and SOP validation."
(日本語訳)
「NVIDIA AI Blueprint for Video Search and Summarizationは、大量の動画データを効率的に解析・要約するという課題に対処します。スマートスペースの監視、倉庫自動化、SOP検証など、多様なユースケースに適用できるビジョンAIエージェントの構築に利用できます。」
何がすごいのか
VSSの革新性は、マルチモーダル統合とスケーラビリティにある。
主要な特徴:
-
自然言語による動画検索
- 「事故が発生したのは何分頃?」
- 「作業員がPPEを着用していない場面を探して」
- 自然な質問で、数時間の映像から瞬時に回答
-
長時間動画の要約
- 数時間の会議録画を数分で要約
- 時系列で重要イベントを抽出
- カスタムプロンプトで要約形式を指定可能
-
リアルタイムアラート
- ライブストリームを監視
- 特定イベント(異常行動、安全違反)を検出してアラート
- Webhookで外部システムと連携
-
音声統合
- 動画の音声をASRで文字起こし
- 映像キャプションと音声トランスクリプトを統合
- 会議動画、研修動画など音声が重要なコンテンツに最適
-
GPU最適化
- NVIDIA GPUで最大100倍の高速化
- 複数ストリームの並列処理
- シングルGPU(H100/H200/A100)からマルチGPU構成まで対応
NVIDIA Metropolisとの関係
VSSは、NVIDIA Metropolisプラットフォームの一部だ。Metropolisは、ビジョンAIアプリケーションのための包括的なプラットフォーム。
NVIDIA公式サイトより(原文):
"NVIDIA Metropolis is a vision AI application platform and partner ecosystem that simplifies the development, deployment, and scalability of visual AI agents deployed from the edge to the cloud."
(日本語訳)
「NVIDIA Metropolisは、エッジからクラウドまでデプロイされるビジュアルAIエージェントの開発、デプロイ、スケーラビリティを簡素化するビジョンAIアプリケーションプラットフォームおよびパートナーエコシステムです。」
Metropolisには、VSSの他にも以下のコンポーネントがある:
- DeepStream SDK:動画解析パイプラインの構築
- TAO Toolkit:モデルのカスタマイズ・ファインチューニング
- NIM microservices:推論サービスのデプロイ
VSSはこれらの上に構築された「アプリケーション層」という位置づけ。
2. VSSのアーキテクチャ:2つのパイプライン
VSSは大きく2つのパイプラインで構成されている。
全体構成
┌─────────────────────────────────────────────────────────────────┐
│ NVIDIA VSS │
├─────────────────────────────────────────────────────────────────┤
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ Ingestion Pipeline │ │
│ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │
│ │ │ Video │→│ Frame │→│ VLM │→│ Caption │ │ │
│ │ │ Decode │ │ Sample │ │(Cosmos) │ │ Output │ │ │
│ │ └─────────┘ └─────────┘ └─────────┘ └─────────┘ │ │
│ │ ↓ │ │
│ │ ┌─────────┐ ┌─────────┐ │ │
│ │ │ Audio │→│ ASR │→ Transcript │ │
│ │ │ Extract │ │ (Riva) │ │ │
│ │ └─────────┘ └─────────┘ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ Retrieval Pipeline (CA-RAG) │ │
│ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │
│ │ │ Embedding │ │ Vector DB │ │ Graph DB │ │ │
│ │ │ (NeMo) │ │ (Milvus) │ │ (Neo4j) │ │ │
│ │ └─────────────┘ └─────────────┘ └─────────────┘ │ │
│ │ ↓ │ │
│ │ ┌─────────────┐ ┌─────────────┐ │ │
│ │ │ Reranker │→│ LLM │→ Response │ │
│ │ │ (NeMo) │ │ (LLaMA 3.1)│ │ │
│ │ └─────────────┘ └─────────────┘ │ │
│ └─────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
Ingestion Pipeline(取り込みパイプライン)
動画を取り込み、解析可能な形式に変換するパイプライン。
公式ドキュメントより(原文):
"The ingestion pipeline supports offline and batch processing of video and image files as well as online processing of live streams from cameras. Video files are processed as small chunks (typically a few seconds or a few minutes, based on model and use case)."
(日本語訳)
「取り込みパイプラインは、動画・画像ファイルのオフライン・バッチ処理と、カメラからのライブストリームのオンライン処理をサポートします。動画ファイルは小さなチャンク(通常、モデルとユースケースに応じて数秒から数分)に分割して処理されます。」
処理フロー:
- 動画デコード:入力動画をチャンク(数秒〜数分)に分割
- フレームサンプリング:各チャンクから代表フレームを選択(例:30秒チャンクから8フレーム)
- VLMキャプション生成:Vision Language Modelで各チャンクの内容を記述
- 音声抽出・ASR(オプション):音声を16kHzモノラルに変換、Riva ASRで文字起こし
- CVメタデータ(オプション):物体検出、セグメンテーション、トラッキング
Retrieval Pipeline(検索パイプライン)
取り込んだ情報を検索・要約・質問応答に活用するパイプライン。ここがCA-RAGの本拠地。
公式ドキュメントより(原文):
"Retrieval pipeline, where Context-Aware RAG (CA-RAG) plays a major role, is responsible for processing the output of the ingestion pipeline and using it for various retrieval tasks like summarization of long video files, live streams, and Q&A on the indexed data."
(日本語訳)
「検索パイプラインは、CA-RAG(Context-Aware RAG)が中心的な役割を果たし、取り込みパイプラインの出力を処理して、長時間動画やライブストリームの要約、インデックス化されたデータへのQ&Aなど、様々な検索タスクに活用します。」
処理フロー:
- テキスト埋め込み:VLMキャプション、音声トランスクリプトをベクトル化(NeMo Retriever Embedding)
- ベクトルDB格納:Milvusにベクトルとメタデータを保存
- ナレッジグラフ構築:LLMでキャプションを解析し、Neo4jにエンティティ・関係を格納
- 検索・リランキング:クエリに基づきベクトル検索+グラフ検索、NeMo Rerankerで精度向上
- 回答生成:LLM(LLaMA 3.1)で最終回答を生成
3. CA-RAG:VSSの頭脳
CA-RAG(Context-Aware Retrieval-Augmented Generation)は、VSSの「賢さ」を支える中核モジュール。
なぜ「Context-Aware」なのか
従来のRAGは、単純にベクトル類似度で関連チャンクを取得して、LLMに渡すだけだった。これだと、時系列の文脈やエンティティ間の関係が抜け落ちる。
CA-RAGは、ベクトルRAGとグラフRAGを組み合わせて、より深い文脈理解を実現する。
公式ドキュメントより(原文):
"The Context-Aware Retrieval-Augmented Generation (CA-RAG) module leverages both Vector RAG and Graph-RAG as primary sources for video understanding. This module is utilized in key features such as summarization, Q&A, and sending alerts."
(日本語訳)
「CA-RAGモジュールは、動画理解の主要ソースとしてVector RAGとGraph-RAGの両方を活用します。このモジュールは、要約、Q&A、アラート送信などの主要機能で使用されます。」
検索戦略
CA-RAGは複数の検索戦略をサポートしている:
| 戦略 | 説明 | 得意なケース |
|---|---|---|
| Vector Retrieval | セマンティック類似度ベースの検索 | 一般的なQ&A |
| Graph Retrieval | ナレッジグラフからエンティティ関係を検索 | 「誰が」「何を」の質問 |
| VLM Retrieval | Vision Language Modelによるマルチモーダル検索 | 視覚的な詳細の質問 |
| Chain of Thought | 反復的な推論で信頼度スコアリング | 複雑な推論が必要な質問 |
| Advanced Retrieval | 計画・実行のモジュラーアプローチ | 複雑なマルチステップ質問 |
要約の仕組み
長時間動画の要約は、バッチ処理+集約の2段階で行う。
公式ドキュメントより(原文):
"Batch: This method performs summarization in two stages: Batching: Groups together documents into batches and generates summaries for each batch. Aggregation: Combines batch summaries using a secondary prompt (summary_aggregation). This method is ideal for handling long videos."
(日本語訳)
「バッチ方式:この方法は2段階で要約を実行します。バッチ処理:ドキュメントをバッチにグループ化し、各バッチの要約を生成。集約:二次プロンプト(summary_aggregation)を使ってバッチ要約を統合。この方法は長時間動画の処理に最適です。」
アラート機能
リアルタイムストリームで特定のイベントを検出し、アラートを送信できる。
アラート例:
Alert Name: incident
Detected Events: accident on the road
Time: 80 seconds
Details: 2025-03-15 12:07:39 PM: The scene depicts an intersection...
A red sedan and a yellow sedan are involved in a collision...
4. VSSで使用されるモデル
VSSは複数のAIモデルを統合している。
VLM(Vision Language Model)
Cosmos-Reason1(デフォルト):
- NVIDIAが開発した7Bパラメータのビデオ言語モデル
- 視覚と言語の両方を推論可能
- 時間的理解(temporal understanding)に優れる
公式ドキュメントより(原文):
"Cosmos-Reason1 is capable of reasoning about both vision and language and has temporal understanding. This is the default model used in VSS deployment."
(日本語訳)
「Cosmos-Reason1は視覚と言語の両方について推論でき、時間的理解を持ちます。これはVSSデプロイメントのデフォルトモデルです。」
その他のVLMオプション:
- NVILA:高解像度処理対応、詳細な物体認識に強い
- VILA 1.5:従来モデル(廃止予定)
- GPT-4o:OpenAI APIを使用(リモートエンドポイント)
ASR(Automatic Speech Recognition)
Parakeet-CTC-XL-0.6B:
- NVIDIAが開発した6億パラメータのASRモデル
- 35,000時間以上の英語音声データで学習
- 小文字の英語テキスト、スペース、アポストロフィで出力
前回紹介したNeMoのRiva ASRサービスがここで使われている。NeMoで学んだ知識が活きてくる。
LLM(Large Language Model)
LLaMA 3.1 70B Instruct:
- Metaが開発した70Bパラメータのモデル
- Guardrails、CA-RAG、要約で使用
- ローカルデプロイまたはNVIDIA API Catalog経由で利用可能
Embedding & Reranking
NVIDIA Retrieval QA Llama3.2 1B v2:
- テキスト埋め込み用とリランキング用の2つのNIMモデル
- NeMo Retrieverの技術がベース
CV Pipeline Models(オプション)
- SAM2:インスタンスセグメンテーション(Meta)
- Grounding DINO:ゼロショット物体検出
- ReIdentificationNet:物体トラッキング用の再識別
5. NeMoとの関係:音声AI技術の系譜
前回の記事でNeMoを紹介したが、VSSはNeMoの技術をフル活用している。
Riva ASR → VSS音声処理
VSSの音声処理は、NeMoのRiva ASRサービスを使用している。
公式ドキュメントより(原文):
"VSS supports processing of audio content in the input media to generate audio transcripts using NVIDIA Riva Automatic Speech Recognition (ASR) service."
(日本語訳)
「VSSは、NVIDIA Riva ASRサービスを使用して入力メディアの音声コンテンツを処理し、音声トランスクリプトを生成します。」
つまり、NeMoで学んだRivaの知識がそのまま活きる。
NeMo Retriever → CA-RAG
CA-RAGで使用されるEmbeddingとReranking NIMは、NeMo Retrieverがベース。NeMoのRAG技術がVSSの検索精度を支えている。
NeMo Guardrails → 安全性フィルタリング
VSSには、NeMo Guardrailsが統合されている。不適切なプロンプトをフィルタリングし、安全な出力を保証する。
公式ドキュメントより(原文):
"VSS supports Guardrails for user input and provides a default Guardrails configuration. VSS uses NVIDIA NeMo Guardrails to provide this functionality."
(日本語訳)
「VSSはユーザー入力のGuardrailsをサポートし、デフォルトのGuardrails設定を提供します。VSSはこの機能にNVIDIA NeMo Guardrailsを使用しています。」
技術スタック全体像
┌─────────────────────────────────────────────────────────────────┐
│ NVIDIA AI Stack │
├─────────────────────────────────────────────────────────────────┤
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ Applications │ │
│ │ ┌───────────┐ ┌───────────┐ ┌───────────┐ │ │
│ │ │ VSS │ │ RAG │ │ その他 │ │ │
│ │ │ Blueprint │ │ Blueprint │ │ Blueprint │ │ │
│ │ └───────────┘ └───────────┘ └───────────┘ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ NeMo Framework │ │
│ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │
│ │ │ Riva │ │Retriever│ │Guardrails│ │ Curator │ │ │
│ │ │ ASR │ │Embedding│ │ Safety │ │ Data │ │ │
│ │ └─────────┘ └─────────┘ └─────────┘ └─────────┘ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ NVIDIA NIM │ │
│ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │
│ │ │ LLM │ │ VLM │ │ Embedding│ │ │
│ │ │ NIM │ │ NIM │ │ NIM │ │ │
│ │ └─────────┘ └─────────┘ └─────────┘ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ CUDA / TensorRT / Triton │ │
│ └─────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
6. デプロイ方法:Docker Composeで始める
システム要件
VSSはGPUリソースが必須。
| 構成 | GPU要件 | 用途 |
|---|---|---|
| シングルGPU | H100/H200/A100 (80GB+) | 開発・テスト |
| 4GPU | 4×H100 | 本番環境(推奨) |
| リモートエンドポイント | 40GB VRAM以上 | VLMのみローカル、LLM等はクラウド |
前提条件
公式ドキュメントより:
# DockerとNVIDIA Container Toolkit
# sudoなしでDockerを実行できること
# NGC APIキー
クイックスタート
1. リポジトリをクローン
git clone https://github.com/NVIDIA-AI-Blueprints/video-search-and-summarization.git
cd video-search-and-summarization/deploy/docker
2. NGCにログイン
docker login nvcr.io
# Username: $oauthtoken
# Password: <NGC_API_KEY>
3. 環境変数を設定
# .envファイルを編集
export NGC_API_KEY=<your-ngc-api-key>
export NVIDIA_API_KEY=<your-nvidia-api-key> # build.nvidia.comから取得
4. Docker Composeで起動
# シングルGPU構成の場合
cd local_deployment_single_gpu
docker compose up
5. UIにアクセス
- Gradio UI: http://localhost:9100
- REST API: http://localhost:8100
デプロイメント構成オプション
VSSは柔軟なデプロイメント構成をサポートしている。
local_deployment(4GPU推奨):
- VLM、LLM、Embedding、Rerankerをすべてローカルで実行
- 最も低レイテンシ
- 最も高いGPUリソース要件
remote_llm_deployment:
- VLMはローカル、LLM等はNVIDIA API Catalog経由
- 40GB VRAM以上で動作
- API利用料が発生
local_deployment_single_gpu:
- シングルGPU(H100/H200/A100 80GB)
- 開発・テスト向け
- Guardrailsは精度の問題で無効化推奨
7. REST APIを使ってみる
VSSはREST APIで操作する。
動画の追加と要約
# ファイルをアップロードして要約
curl -X POST "http://localhost:8100/summarize" \
-H "Content-Type: application/json" \
-d '{
"source_url": "/path/to/video.mp4",
"chunk_duration": 30,
"caption_prompt": "Describe the events in this video.",
"summary_prompt": "Summarize the key events chronologically."
}'
Q&A(質問応答)
# 動画に関する質問
curl -X POST "http://localhost:8100/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": "What happened at 2:30 in the video?"}
],
"stream_id": "<video_stream_id>"
}'
ライブストリームの監視とアラート
# ライブストリームを追加
curl -X POST "http://localhost:8100/live_streams" \
-H "Content-Type: application/json" \
-d '{
"url": "rtsp://camera.local/stream1",
"name": "warehouse_cam_1"
}'
# アラートを設定
curl -X POST "http://localhost:8100/live_stream_alerts" \
-H "Content-Type: application/json" \
-d '{
"stream_id": "<stream_id>",
"alert_name": "safety_violation",
"alert_prompt": "Detect workers not wearing PPE"
}'
8. ユースケース:どこで使えるのか
VSSの応用範囲は広い。
スマートスペース・監視
- 交通監視:事故検出、渋滞分析、違反検出
- 公共安全:異常行動検出、群衆管理
- 施設監視:侵入検知、設備異常検出
プロンプト例:
"You are an intelligent traffic system. Monitor and note all traffic related events.
Start and end each sentence with a time stamp."
倉庫・物流
- 作業効率分析:ボトルネック検出、作業フロー最適化
- 安全コンプライアンス:PPE着用確認、危険行動検出
- 在庫管理:物品の移動追跡、紛失検出
プロンプト例:
"Write a concise and clear dense caption for the provided warehouse video,
focusing on irregular or hazardous events such as boxes falling,
workers not wearing PPE, workers falling..."
製造・工場
- SOP(標準作業手順)検証:作業手順の遵守確認
- 品質管理:製品欠陥の自動検出
- 設備保全:予防保全のための異常検出
メディア・エンターテインメント
- コンテンツ検索:大量の映像アーカイブから特定シーンを検索
- ハイライト生成:スポーツ中継の自動ハイライト作成
- 字幕生成:音声文字起こしとシーン説明の自動生成
会議・研修
- 会議録画の要約:長時間会議の要点抽出
- 研修動画の検索:「〇〇の説明はどこ?」に即答
- 議事録自動生成:音声+映像から議事録を作成
9. VSSの強みと限界
強み
-
エンドツーエンドのソリューション
- 取り込みから検索まで一気通貫
- 個別コンポーネントの統合が不要
-
自然言語インターフェース
- 専門知識不要で動画検索・要約
- プロンプトでカスタマイズ可能
-
マルチモーダル統合
- 映像と音声の両方を理解
- 文脈を考慮した回答生成
-
スケーラビリティ
- シングルGPUからマルチGPUまで対応
- 複数ストリームの並列処理
-
オープンソース
- Apache 2.0ライセンス(一部NIM除く)
- カスタマイズ・拡張が可能
限界
-
GPUリソース要件
- 最低でもA100 80GBが必要
- 本格運用には複数GPUが推奨
-
プラットフォーム制限
- Linux専用(NeMo同様)
- WindowsとMacはDocker経由のみ
-
英語中心
- ASRは英語のみ(Parakeet)
- 多言語対応は今後の課題
-
リアルタイム性能
- 超低レイテンシが必要な場合は要調整
- ライブストリームはチャンク単位処理
-
精度の限界
- VLMの認識精度に依存
- 専門ドメインはファインチューニング推奨
10. 参考リンク
NVIDIA VSS公式リソース
- NVIDIA VSS公式ドキュメント: https://docs.nvidia.com/vss/latest/index.html
- NVIDIA VSS GitHub: https://github.com/NVIDIA-AI-Blueprints/video-search-and-summarization
- NVIDIA API Catalog VSS: https://build.nvidia.com/nvidia/video-search-and-summarization
- VSS Architecture: https://docs.nvidia.com/vss/latest/content/architecture.html
技術ブログ
- Advance Video Analytics AI Agents Using the NVIDIA AI Blueprint for Video Search and Summarization: https://developer.nvidia.com/blog/advance-video-analytics-ai-agents-using-the-nvidia-ai-blueprint-for-video-search-and-summarization/
- Build a Video Search and Summarization Agent with NVIDIA AI Blueprint: https://developer.nvidia.com/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint/
- How to Integrate Computer Vision Pipelines with Generative AI and Reasoning: https://developer.nvidia.com/blog/how-to-integrate-computer-vision-pipelines-with-generative-ai-and-reasoning/
関連プロダクト
- NVIDIA Metropolis: https://www.nvidia.com/en-us/autonomous-machines/intelligent-video-analytics-platform/
- NVIDIA NeMo Framework: https://docs.nvidia.com/nemo/index.html
- NVIDIA NeMo Guardrails: https://developer.nvidia.com/nemo-guardrails
- NVIDIA NIM: https://developer.nvidia.com/nim
使用モデル
- Cosmos-Reason1 VLM: https://catalog.ngc.nvidia.com/orgs/nim/teams/nvidia/models/cosmos-reason1-7b
- Parakeet-CTC-XL ASR: https://build.nvidia.com/nvidia/parakeet-ctc-0_6b-asr
- LLaMA 3.1 70B Instruct NIM: https://build.nvidia.com/meta/llama-3_1-70b-instruct
- NVIDIA Retrieval QA Embedding: https://build.nvidia.com/nvidia/llama-3_2-nv-embedqa-1b-v2
あとがき
前回の記事でNeMoを「音声AI界のスイスアーミーナイフ」と呼んだ。だとすれば、VSSは「映像AI界のコマンドセンター」だ。
NeMoで培われた音声技術(Riva ASR)、検索技術(NeMo Retriever)、安全技術(NeMo Guardrails)。これらが全部、VSSの中で動いている。NeMoを学んだことは無駄じゃない。むしろ、VSSを理解するための「基礎体力」になっている。
正直、VSSの「すごさ」は、動かしてみないとわからない。
数時間の監視カメラ映像を放り込んで、「事故が起きた瞬間を探して」と聞く。数秒で答えが返ってくる。従来なら人間が映像を見続けるしかなかった作業が、自然言語の質問一発で終わる。
これが「生成AIが映像を理解する」ということか、と実感する。
もちろん、GPUリソースは食う。H100が必要というのは、個人開発者にはハードルが高い。でも、NVIDIA API Catalogを使えば、クラウド経由で試せる。まずは触ってみることをお勧めする。
NeMoが「音声」の世界を切り開いたなら、VSSは「映像」の世界を切り開く。
そして、この2つは繋がっている。NeMoの知識がVSSで活きる。VSSの経験がNeMoの理解を深める。
次回は、VSSの実践編として、具体的なカスタマイズ方法やファインチューニングについて触れていければと思う。
あなたの映像AIプロジェクトは、VSSとともに次のステージへ進む。
Discussion