👏

Prefectについて

2022/03/22に公開

Prefectというワークフロー管理のライブラリがある。

https://docs.prefect.io/

色々調べていたので、その最中に読んだ記事を集めた。

Prefectのキーワード

ハイブリッドモデル

また、Prefectでは、ハイブリッドモデルを採用しております。ワークフローの実施を担う基盤とワークフローの監視やスケジュール実施が基盤(Prefect Cloud)が分離しており、Prefect Cloud上には、データやソースコードが保存されずに、タスクのスケジュール実施や監視のみが行われます。

https://techblog.finatext.com/prefect-run-pipeline-d40e32b57022

ネガティブエンジニアリング

だが、Airbnb用に最適化されたスケジューリングシステムApache Airflowの開発に携わった際、データワークフロー管理の課題について考えるようになる。データサイエンティストが、正しくデプロイされているかどうかを確認するために、非常に膨大な時間を費やしていること(ネガティブエンジニアリング)に気がついたのだ。

https://tirupati-tour-packages.com/ja/ja59499/

ETLについて参考になった部分

https://tech.jxpress.net/entry/dataplatform-etl#PythonicなETLフレームワークの選び方

この辺りのETLツールの選定時の基準については、あまり意識したことがなかったので参考になった。

Discussion