📑

PyCon SG 2019にてApache Airflowについて発表しました

2020/11/18に公開

PyCon SG 2019

4月にPyCon APAC 2019で発表した時の記事を公開しましたが、今回は、地元シンガポールで2019年10月に開催されたPyCon SG 2019で発表しましたので、その際の模様を共有します。

前回、PyCon APAC 2019に参加した時の記事はこちら良ければご覧ください。

https://zenn.dev/yohei/articles/2019-02-23-pycon-apac-2019

PyCon SG 2019での発表の模様

主催であるPyCon User Group Singaporeの皆さんが、発表時の動画を公開してくさってます。非常にありがたいです。

https://www.youtube.com/watch?v=yYg0GpFKkz4

発表資料はこちらです。

https://www.slideshare.net/legoboku/building-a-data-pipeline-using-apache-airflow-on-aws-gcp

発表の動機 = 地元シンガポールで発表したい!

現在、シンガポール在住なので、シンガポールで発表したいと思っていました。 PyCon APAC 2018がシンガポール開催だったので、2019もシンガポールで!と思っていましたが、実際はマニラ開催だったので、ようやく家の近所のイベントに参加できて大助かりです^^

発表の概要 = AWSとGCPの両方でAirflowを使った場合の違いを紹介

APACでの発表時は、AWS上でAirflowのクラスタを構築して、初めて本番環境でAirflowを使い始めた時のことを紹介しました。 今回は、当初、APACで質問を受けたSparkとの連携について話するつもりで申し込みまでしましたが、実際はここ最近、Sparkを全く使わなくなったので、タイトルをイベント開催前に変更しました^^;

最近はもっぱらGCPでAirflowを使っており、バッチ系のパイプラインはComposer(Airflowのマネージドサービス)で、ストリーム系はDataflowを使っています。

そういう背景もあり、Airlowの簡単な紹介をした後は、AWS上で自作クラスタを構築・運用してた時の経験、GCP上でマネージド・サービスを使った場合との比較を紹介しました。個人的には、データエンジニアリングをやる上では、インフラ周りはマネージドサービスに移譲できて、ビジネス価値に専念できて、GCPの方が楽だという感想です。

発表後の質疑応答では、Airflowそのものの質問というより、Airflowをどうやってデプロイするか、可用性の高いクラスタを構築するか、という話ばかりでした。発表が終わってからも10人くらいに囲まれて質問者もまじえての議論をしてました。皆さん、十分なインフラエンジニア・DevOpsエンジニアが確保できず、苦労しているんだなという印象でした ^^;

自分でやる余裕がない、スキルが足りない人には、GCPのCloud Composerを使うのが楽だと思います。

余談:gihyoの参加レポートに登場してました!

イベント前の日本人懇親会(元PyCon JPスタッフ同窓会も兼ねている)からPyCon SG 2019のイベントの模様まで、PyCon JPスタッフの鈴木さんが記事を公開されています。私も登場しています。ありがとうございます。

https://gihyo.jp/news/report/2019/10/2901

Discussion