大注目のPython高速ETLライブラリ: pathway(Rust製)

OSS Insightの1位に見慣れないPythonライブラリ: pathwayを発見。
なんとGitHubスター数はすでに38k!(直近24hで3kの伸び)
Pathway は、ストリーム処理、リアルタイム分析、LLM パイプライン、RAG 用の Python ETL フレームワークです。
Pathway は、Differential Dataflow に基づくスケーラブルな Rust エンジンを搭載しており、増分計算を実行します。
Pathway コードは Python で書かれているにもかかわらず、Rust エンジンによって実行され、マルチスレッド、マルチプロセッシング、分散計算が可能です。 すべてのパイプラインはメモリに保持され、DockerとKubernetesで簡単にデプロイできます。
なるほど。これはDatabricksで採用されているPysparkの競合ライブラリだな?と理解。
ちなみにApache/SparkのGitHubスター数は42k。

Pathway は、Flink、Spark、Kafka Streaming など、ストリーミングおよびバッチ データ処理タスク用に設計された最先端のテクノロジーを上回るように作られています。また、他のストリーミングフレームワーク(特に、時間結合、反復グラフアルゴリズム、機械学習ルーチン)では容易にサポートされていない多くのアルゴリズム/ UDFをストリーミングモードで実装することもできます。
見れば見るほど、Sparkの上位互換を目指してつくられたライブラリっぽい。
つまりワンショットのデータ解析向けのライブラリではなく、
「常にDBにデータが新しく入ってくる環境で、新着データを検知してStreaming処理でETLや後続の機械学習/LLMパイプラインにデータを流す」用途を想定しているのかなーと思った。
製造業、大規模Webサービス、金融業が主戦場かな?

ライセンスを見てびっくり。OSS Insight経由で知ったので当然OSSライセンスを採用しているものと思っていたら、まさかの
-
Business Source License v1.1(BSL1.1)
だった。
このライセンスはMariaDB社が策定した「本番利用を制限する」条項が付いたソース公開型ライセンス。
「4年間経つと自動的に任意のOSSライセンスに移行する」という条文が入っている点が特徴的なライセンスで、Pathwayの場合は4年後にApach-2.0に自動移行することになっている。

Pathwayの採用を検討しうるほぼすべての企業では、前述のライセンスの問題がほぼ間違いなくノックアウトファクターになると思われるので、OSSに自動移行する4年後までは現状ウォッチするモチベーションはないかな、というのが正直な感想。
一方、Sparkのほうは2025年8月に「既存APIのままミリ秒級レイテンシを狙える」Real-time mode(公開プレビュー)が発表されていたりと、性能面の進化は進んでいる。
と言ってもこれはDatabricks上のみの新機能という位置付けなことからも分かるように、「Sparkは事実上Databricksの利用とセット」になりつつあるし、どんな環境にも移行しやすいETLパイプラインの実現、という意味ではpathwayにも期待したいところ。