Closed4

大注目のPython高速ETLライブラリ: pathway(Rust製)

vArvAr

OSS Insightの1位に見慣れないPythonライブラリ: pathwayを発見。
https://ossinsight.io/

https://github.com/pathwaycom/pathway

なんとGitHubスター数はすでに38k!(直近24hで3kの伸び)

Pathway は、ストリーム処理、リアルタイム分析、LLM パイプライン、RAG 用の Python ETL フレームワークです。
Pathway は、Differential Dataflow に基づくスケーラブルな Rust エンジンを搭載しており、増分計算を実行します。
Pathway コードは Python で書かれているにもかかわらず、Rust エンジンによって実行され、マルチスレッド、マルチプロセッシング、分散計算が可能です。 すべてのパイプラインはメモリに保持され、DockerとKubernetesで簡単にデプロイできます。

なるほど。これはDatabricksで採用されているPysparkの競合ライブラリだな?と理解。

ちなみにApache/SparkのGitHubスター数は42k。

vArvAr

Pathway は、Flink、Spark、Kafka Streaming など、ストリーミングおよびバッチ データ処理タスク用に設計された最先端のテクノロジーを上回るように作られています。また、他のストリーミングフレームワーク(特に、時間結合、反復グラフアルゴリズム、機械学習ルーチン)では容易にサポートされていない多くのアルゴリズム/ UDFをストリーミングモードで実装することもできます。

見れば見るほど、Sparkの上位互換を目指してつくられたライブラリっぽい。

つまりワンショットのデータ解析向けのライブラリではなく、
「常にDBにデータが新しく入ってくる環境で、新着データを検知してStreaming処理でETLや後続の機械学習/LLMパイプラインにデータを流す」用途を想定しているのかなーと思った。

製造業、大規模Webサービス、金融業が主戦場かな?

vArvAr

ライセンスを見てびっくり。OSS Insight経由で知ったので当然OSSライセンスを採用しているものと思っていたら、まさかの

  • Business Source License v1.1(BSL1.1)
    だった。

このライセンスはMariaDB社が策定した「本番利用を制限する」条項が付いたソース公開型ライセンス。

「4年間経つと自動的に任意のOSSライセンスに移行する」という条文が入っている点が特徴的なライセンスで、Pathwayの場合は4年後にApach-2.0に自動移行することになっている。

vArvAr

Pathwayの採用を検討しうるほぼすべての企業では、前述のライセンスの問題がほぼ間違いなくノックアウトファクターになると思われるので、OSSに自動移行する4年後までは現状ウォッチするモチベーションはないかな、というのが正直な感想。

一方、Sparkのほうは2025年8月に「既存APIのままミリ秒級レイテンシを狙える」Real-time mode(公開プレビュー)が発表されていたりと、性能面の進化は進んでいる。
と言ってもこれはDatabricks上のみの新機能という位置付けなことからも分かるように、「Sparkは事実上Databricksの利用とセット」になりつつあるし、どんな環境にも移行しやすいETLパイプラインの実現、という意味ではpathwayにも期待したいところ。

このスクラップは5時間前にクローズされました