Open3

ベクトルデータベース

aGlnYWtpbg==aGlnYWtpbg==

ベクトルデータベースとは

  • その名の通りでデータをベクトル形式で格納するデータベース
    • 例えば、猫というデータを [0.47, 0.10, 0.26, 0.89, -0.71, ...] を数値ベクトル化して格納する
  • ベクトルデータベースを使うと類似商品の提案や類似動画の検索などができるようになる
    • 手順イメージとしては下記のような感じ
      • 事前にベクトルデータベースにデータを登録する
        • 登録したい動画をライブラリ使って数値ベクトル化
        • 数値ベクトル化したデータをベクトルデータベースに登録
      • 類似動画を検索する
        • 検索対象の動画を数値ベクトル化
        • 数値ベクトル化したデータとのコサイン類似度を計算して、類似度が高いものを複数返す?
  • 高次元のデータ(画像、動画 など)を格納できることが特徴
    • テキスト・画像・動画などをベクトル化するには ライブラリが必要
    • 画像・動画であれば、深層学習ライブラリなどを使う
    • PDFページとかであれば、PDFからテキスト抽出→ 文章を分節ごとにベクトル化→ベクトルデータベースにベクトルデータを格納
aGlnYWtpbg==aGlnYWtpbg==

qdrant を使ってみる

https://github.com/qdrant/qdrant
を使って、実際に ベクトルデータベースを触ってみる。

Qdrant

  • 次世代の AI アプリケーション用のベクトル データベース.クラウドでも利用可能
    https://cloud.qdrant.io/

アカウント作成

localでdockerで環境構築もできるみたいだが、
cloudの1GBのクラスタが無料で利用できるようなので、cloudで試してみる。
クレジットカードは不要で、GitHub or Googleアカウントがあればアカウントが作れるみたい。

使い方

基本的に、APIでデータを操作する?みたい。

QDRANT_HOST=
API_KEY=
curl -sS \
    -X GET "https:/${QDRANT_HOST}:6333" \
    --header "api-key: ${API_KEY}" | jq .
実行結果
{
  "title": "qdrant - vector search engine",
  "version": "1.1.3"
}

https://github.com/qdrant/qdrant/blob/master/QUICK_START.md をもとに進めていく。

コレクションを作ってみる

QDRANT_HOST=
API_KEY=
curl -X PUT "https://${QDRANT_HOST}:6333/collections/test_collection" \
    -H "api-key: ${API_KEY}" \
    -H 'Content-Type: application/json' \
    --data-raw '{
        "vectors": {
          "size": 4,
          "distance": "Dot"
        }
    }'
結果
{"result":true,"status":"ok","time":0.100458639}

画面上からだとcollectionとか確認できないのか。。残念。

コレクション 情報を取得してみる

QDRANT_HOST=
API_KEY=
COLLECTION_NAME=test_collection
curl -sS -X GET "https://${QDRANT_HOST}:6333/collections/${COLLECTION_NAME}" \
    -H "api-key: ${API_KEY}" \
    -H 'Content-Type: application/json'  | jq .
実行結果
{
  "result": {
    "status": "green",
    "optimizer_status": "ok",
    "vectors_count": 0,
    "indexed_vectors_count": 0,
    "points_count": 0,
    "segments_count": 2,
    "config": {
      "params": {
        "vectors": {
          "size": 4,
          "distance": "Dot"
        },
        "shard_number": 1,
        "replication_factor": 1,
        "write_consistency_factor": 1,
        "on_disk_payload": true
      },
      "hnsw_config": {
        "m": 16,
        "ef_construct": 100,
        "full_scan_threshold": 10000,
        "max_indexing_threads": 0,
        "on_disk": false
      },
      "optimizer_config": {
        "deleted_threshold": 0.2,
        "vacuum_min_vector_number": 1000,
        "default_segment_number": 0,
        "max_segment_size": null,
        "memmap_threshold": null,
        "indexing_threshold": 20000,
        "flush_interval_sec": 5,
        "max_optimization_threads": 1
      },
      "wal_config": {
        "wal_capacity_mb": 32,
        "wal_segments_ahead": 0
      },
      "quantization_config": null
    },
    "payload_schema": {}
  },
  "status": "ok",
  "time": 1.7467e-05
}

データ追加 (ベクトルとペイロードの追加)

4元ベクトルを利用して、ベクトルの要素を定義。各ベクトルに対してのペイロードの付与できるみたい。

※4元ベクトルとは?

4次元ベクトルは、4つの要素を持つベクトルです。一般的に、4次元ベクトルは以下のように表されます:

v = [x, y, z, w]

ここで、x、y、z、wはベクトルの各要素を表しています。

4次元ベクトルは、数学や物理学、コンピュータグラフィックスなどのさまざまな分野で使用されます。また、4次元空間を表現するためにも使用されます。ただし、4次元空間は直感的には理解しにくいため、通常は数学的な表現や抽象的な概念として扱われます。

4次元ベクトルの演算は、3次元ベクトルの演算と同様に行われます。つまり、要素ごとの加算、減算、スカラー倍などの操作が可能です。

QDRANT_HOST=
API_KEY=
COLLECTION_NAME=test_collection
curl -sS -L -X PUT "https://${QDRANT_HOST}:6333/collections/${COLLECTION_NAME}/points?wait=true" \
    -H "api-key: ${API_KEY}" \
    -H 'Content-Type: application/json' \
    --data-raw '{
        "points": [
          {"id": 1, "vector": [0.05, 0.61, 0.76, 0.74], "payload": {"city": "Berlin"}},
          {"id": 2, "vector": [0.19, 0.81, 0.75, 0.11], "payload": {"city": ["Berlin", "London"] }},
          {"id": 3, "vector": [0.36, 0.55, 0.47, 0.94], "payload": {"city": ["Berlin", "Moscow"] }},
          {"id": 4, "vector": [0.18, 0.01, 0.85, 0.80], "payload": {"city": ["London", "Moscow"] }},
          {"id": 5, "vector": [0.24, 0.18, 0.22, 0.44], "payload": {"count": [0] }},
          {"id": 6, "vector": [0.35, 0.08, 0.11, 0.44]}
        ]
    }'
実行結果
{
  "result": {
    "operation_id": 0,
    "status": "completed"
  },
  "status": "ok",
  "time": 0.000338093
}

データの検索

フィルタなし検索

QDRANT_HOST=
API_KEY=
COLLECTION_NAME=test_collection
curl -sS -L -X POST "https://${QDRANT_HOST}:6333/collections/${COLLECTION_NAME}/points/search" \
    -H "api-key: ${API_KEY}" \
    -H 'Content-Type: application/json' \
    --data-raw '{
        "vector": [0.2,0.1,0.9,0.7],
        "top": 3
    }' | jq .
実行結果
{
  "result": [
    {
      "id": 4,
      "version": 0,
      "score": 1.362,
      "payload": null,
      "vector": null
    },
    {
      "id": 1,
      "version": 0,
      "score": 1.273,
      "payload": null,
      "vector": null
    },
    {
      "id": 3,
      "version": 0,
      "score": 1.208,
      "payload": null,
      "vector": null
    }
  ],
  "status": "ok",
  "time": 0.000115661
}

フィルタあり検索

QDRANT_HOST=
API_KEY=
COLLECTION_NAME=test_collection
curl -sS -L -X POST "https://${QDRANT_HOST}:6333/collections/${COLLECTION_NAME}/points/search" \
    -H "api-key: ${API_KEY}" \
    -H 'Content-Type: application/json' \
    --data-raw '{
      "filter": {
          "should": [
              {
                  "key": "city",
                  "match": {
                      "value": "London"
                  }
              }
          ]
      },
      "vector": [0.2, 0.1, 0.9, 0.7],
      "top": 3
  }'
実行結果
{
  "result": [
    {
      "id": 4,
      "version": 0,
      "score": 1.362,
      "payload": null,
      "vector": null
    },
    {
      "id": 2,
      "version": 0,
      "score": 0.871,
      "payload": null,
      "vector": null
    }
  ],
  "status": "ok",
  "time": 0.000127874
}