🦆
DuckDB/DuckDB-Wasm を利用した低コストでの可視化

voluntas
2024/10/01に公開
 前提ミドルウェアのログ可視化
ログサイズは全体で 1 TB 未満
ログは jsonl で出力される

 まとめ非同期での可視化
オフラインでの可視化
低コスト

 DuckDB とはこちらをどうぞ。
DuckDB雑紹介(1.1対応版)@DuckDB座談会 - Speaker Deck

 サンプルとりあえず動くのが見たい人用です。ソースコードも公開してます。
DuckDB-Wasm + Parquet + S3-compatible object storage + OPFS
S3 から Parquet ファイルを fetch して DuckDB-Wasm への登録
OPFS へ Parquet ファイルの保存
OPFS から Parquet ファイルの読み込み DuckDB-Wasm へ登録
SAMPLE 1 の出力
SAMPLE 1 での検索
SAMPLE 1 での Parquet ファイル出力
雑な集計
OPFS の削除
https://github.com/voluntas/duckdb-wasm-parquet

 非同期の可視化DuckDB を利用する事で、HTTP で可視化要求リクエストを受け取って S3 または S3 互換オブジェクトストレージ (以降 S3) から jsonl.gz ログ取得し Parquet ファイルを生成し、S3 にアップロードし、署名付き URL を発行して返すことができます。
クライアントは Parquet ファイルをダウンロードし OPFS に保存、その後は通信することなくオフラインで好き放題ブラウザ上で解析することができます。
そもそもダッシュボードの可視化を求められるのは、なにか問題があったときであって、それ以外では必要とされることは基本的にありません。
S3 の jsonl.gz や Parquet ファイルの有効期限を設定しておくことで、一定期間で削除することができます。

 オフラインでの可視化この仕組みを使う事で OPFS に保存された Parquet ファイルはいつでもオフラインで確認することができるようになります。毎回ダウンロードも発生しません。
OPFS のファイルはクライアント側の判断で好きに削除することができます。

 クライアントリソースこの仕組みを使う事で集計や解析に必要なリソースをクライアント側に持たせることができます。クライアント側で Parquet で数十メガ程度のログを解析はとても軽く、負担になる範囲ではありません。

 コスト上記の構成でかかる費用は S3 のストレージ費用と、Parquet ファイルの転送量だけです。要求の処理は集約だけなのでほぼ CPU リソースを使うことはありません。

 オフライン解析DuckDB-Wasm をうまく使えば、ミドルウェアが出力した json.gz ログをブラウザに D&D で読み込ませて、それを解析することもできるようになります。
ブラウザで利用できるオフライン解析ツールが実現できるようになります。

 DuckDB-Wasm の OPFS 対応Add OPFS (Origin Private File System) Support to the Latest Version of duckdb-wasm by e1arikawa · Pull Request #1856 · duckdb/duckdb-wasm
DuckDB-Wasm 利用時に OPFS を保存先とする仕組みです。この仕組みを利用することで 10 GB 近いデータをブラウザで読み込めるようになるようです。
https://x.com/eiichi292929/status/1841760741713707122

 DuckDB-Wasm でインスタントサーチかなり雑に作ったのですが、キー入力毎に DuckDB-Wasm で SQL を実行して、Samples (1) を実行しています。
以下のような SQL を実行しています。

当たり前ですが DuckDB-Wasm は SQL インジェクションが存在しないので最高です。
SELECT timestamp, connection_id, rtc_type
FROM rtc_stats
WHERE connection_id LIKE '%${searchTerm}%'
    OR timestamp LIKE '%${searchTerm}%'
    OR rtc_type LIKE '%${searchTerm}%'
USING SAMPLE 1 PERCENT (bernoulli);
以下の検索ボックスで試せます。

https://voluntas.github.io/duckdb-wasm-parquet/

 DuckDB-Wasm で Parquet ファイル出力DuckDB-Wasm で Parquet ファイルを出力することができます。
COPY (SELECT * FROM rtc_stats
USING SAMPLE 1 PERCENT (bernoulli)) TO samples.parquet (FORMAT 'parquet', COMPRESSION 'zstd');
後はこんな感じで Buffer に保存して、それを Blob にしてダウンロードすることができます。
const parquet_buffer = await db.copyFileToBuffer('samples.parquet')
const blob = new Blob([parquet_buffer], { type: 'application/octet-stream' })
以下の Samples (1%) Download Parquet ボタンで試せます。

https://voluntas.github.io/duckdb-wasm-parquet/
時雨堂ノートPublication
前提

まとめ

DuckDB とは

サンプル

非同期の可視化

オフラインでの可視化

クライアントリソース

コスト

オフライン解析

DuckDB-Wasm の OPFS 対応

DuckDB-Wasm でインスタントサーチ

DuckDB-Wasm で Parquet ファイル出力

Discussion