<h2 id="%E6%A6%82%E8%A6%81" data-line="0" class="code-line">
<a class="header-anchor-link" href="#%E6%A6%82%E8%A6%81" aria-hidden="true"></a> 概要</h2>
<p data-line="2" class="code-line">AirflowとdbtをCosmosパッケージで活用し、ETLからダッシュボード公開に至るまでを一元的に扱う構成を示しています。これによって、データの抽出・変換・ロードを一貫して管理でき、データレイクからデータマートの構築までスムーズに進められます。また、ダッシュボードの更新の自動化が見込めます。GitHubリポジトリで既存の構成を公開しています。</p>
<p data-line="5" class="code-line"><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__a5c4bc26798e2" src="https://embed.zenn.studio/card#zenn-embedded__a5c4bc26798e2" data-content="https%3A%2F%2Fgithub.com%2Fhayato540101%2Fapi2dashboard_example" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://github.com/hayato540101/api2dashboard_example" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/hayato540101/api2dashboard_example</a></p>
<h2 id="%E6%A7%8B%E6%88%90" data-line="7" class="code-line">
<a class="header-anchor-link" href="#%E6%A7%8B%E6%88%90" aria-hidden="true"></a> 構成</h2>
<p data-line="9" class="code-line">AirflowがあらゆるETL処理やデータベースへの書き込みを担当し、dbtがデータマートの作成を請け負うフローです。sqldefはまだ実装中で、本記事では対象外としています。</p>
<p data-line="11" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/3cbec66d767d-20250103.png" loading="lazy" class="md-img"></p>
<details><summary>ディレクトリ構造</summary><div class="details-content"><div class="code-block-container"><pre><code class="code-line" data-line="15">.
├── README.md
├── airflow/
│   ├── airflow-webserver.pid
│   ├── airflow.cfg
│   ├── airflow.db
│   ├── dags/
│   │   ├── xx/
│   │   │   ├── xx2db.py
│   │   │   └── dag.yaml
│   │   ├── dbt -&gt; ../../dbt
│   │   ├── utils.py
│   │   └── yy/
│   │       ├── api2db.py
│   │       └── dag.yaml
│   ├── logs/
│   ├── scripts -&gt; ../src/
│   └── webserver_config.py
├── dbt/
│   ├── dbt_project.yml
│   ├── macros/
│   ├── models/
│   │   ├── JQ/
│   │   │   ├── schema.yml
│   │   │   └── zz_analysis.sql
│   │   └── yy/
│   ├── profiles.yml
│   ├── seeds/
│   └── tests/
├── docker/
│   ├── Dockerfile
│   ├── airflow/
│   │   ├── clean_log.sh
│   │   ├── dag_trigger.sh
│   │   ├── init.sh
│   │   ├── kill.sh
│   │   ├── start.sh
│   │   └── task.sh
│   ├── build.sh
│   ├── requirements.txt
│   └── run.sh
└── src/
   ├── experimental/
   │   └── db_reserch.ipynb
   ├── python/
   │   ├── xx2csv.py
   │   ├── utils/
   │   │   ├── api_ops.py
   │   │   ├── cruds.py
   │   │   ├── io_csv.py
   │   │   └── utils.py
   │   └── yy_api2csv.py
   ├── sql/
   └── streamlit/
       └── app.py

</code></pre></div></div></details>
<h2 id="%E5%AE%9F%E8%A1%8C%E3%83%95%E3%83%AD%E3%83%BC" data-line="77" class="code-line">
<a class="header-anchor-link" href="#%E5%AE%9F%E8%A1%8C%E3%83%95%E3%83%AD%E3%83%BC" aria-hidden="true"></a> 実行フロー</h2>
<p data-line="79" class="code-line">Dockerイメージのビルドとコンテナの起動後、init.shとstart.shを使ってAirflow Webサーバーを立ち上げます。Airflowの管理画面から定期実行のバッチ処理をスケジュールでき、たとえばAPIからデータベースへ直接連携するDAGが動きます</p>
<p data-line="81" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/76c36dc21778-20250103.png" loading="lazy" class="md-img"></p>
<ul data-line="83" class="code-line">
<li data-line="83" class="code-line">
<p data-line="83" class="code-line">docker/airflow/init.shでconnectionを追加することで、進捗をslackに通知している<br>
<img src="https://storage.googleapis.com/zenn-user-upload/d05c7e6b2ed9-20250103.png" loading="lazy" class="md-img"></p>
</li>
<li data-line="86" class="code-line">
<p data-line="86" class="code-line">DAG: deploy_streamlit を実行すると streamlit でダッシュボード公開することができる<br>
<img src="https://storage.googleapis.com/zenn-user-upload/f94aa3f71f58-20250103.png" loading="lazy" class="md-img"></p>
</li>
</ul>
<h3 id="%E5%AE%9F%E8%A1%8C%E3%83%95%E3%83%AD%E3%83%BC-%3E-%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BD%E3%83%BC%E3%82%B9-~-csv" data-line="90" class="code-line">
<a class="header-anchor-link" href="#%E5%AE%9F%E8%A1%8C%E3%83%95%E3%83%AD%E3%83%BC-%3E-%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BD%E3%83%BC%E3%82%B9-~-csv" aria-hidden="true"></a> 実行フロー &gt; データソース ~ CSV</h3>
<p data-line="92" class="code-line">Pythonスクリプトを用いてデータソースからテーブルへのインサート用CSVを生成します。</p>
<h4 id="(%E6%96%B0%E8%A6%8F%E3%83%86%E3%83%BC%E3%83%96%E3%83%AB%E3%81%AE%E4%BD%9C%E6%88%90)" data-line="95" class="code-line">
<a class="header-anchor-link" href="#(%E6%96%B0%E8%A6%8F%E3%83%86%E3%83%BC%E3%83%96%E3%83%AB%E3%81%AE%E4%BD%9C%E6%88%90)" aria-hidden="true"></a> (新規テーブルの作成)</h4>
<p data-line="97" class="code-line">ref: <a href="https://discourse.getdbt.com/t/create-empty-table-through-dbt-seed/11667/7" target="_blank" rel="nofollow noopener noreferrer">https://discourse.getdbt.com/t/create-empty-table-through-dbt-seed/11667/7</a></p>
<p data-line="99" class="code-line">次のようなインクリメンタルモデルを使用してテーブルを作成</p>
<details><summary>airflow/dags/dbt/models/public/testtable.sql</summary><div class="details-content"><div class="code-block-container"><pre><code class="code-line" data-line="104">{{
    config(
        materialized='incremental',
        unique_key='id',
        on_schema_change='sync_all_columns'
    )
}}

SELECT
    NULL::INT AS id,
    NULL::VARCHAR AS name,
    NULL::TIMESTAMP AS created_at
WHERE 1 = 0
</code></pre></div></div></details>
<h3 id="%E5%AE%9F%E8%A1%8C%E3%83%95%E3%83%AD%E3%83%BC-%3E-csv-~-table(%E6%A6%82%E5%BF%B5%E3%82%B9%E3%82%AD%E3%83%BC%E3%83%9E)" data-line="122" class="code-line">
<a class="header-anchor-link" href="#%E5%AE%9F%E8%A1%8C%E3%83%95%E3%83%AD%E3%83%BC-%3E-csv-~-table(%E6%A6%82%E5%BF%B5%E3%82%B9%E3%82%AD%E3%83%BC%E3%83%9E)" aria-hidden="true"></a> 実行フロー &gt; csv ~ table(概念スキーマ)</h3>
<p data-line="124" class="code-line">psql で csv から table にバルクインサート。bashoperator が psql の 成否ステータスを正しく返せない点は要改善</p>
<h3 id="%E5%AE%9F%E8%A1%8C%E3%83%95%E3%83%AD%E3%83%BC-%3E-table-~-mart(%E5%A4%96%E9%83%A8%E3%82%B9%E3%82%AD%E3%83%BC%E3%83%9E)" data-line="126" class="code-line">
<a class="header-anchor-link" href="#%E5%AE%9F%E8%A1%8C%E3%83%95%E3%83%AD%E3%83%BC-%3E-table-~-mart(%E5%A4%96%E9%83%A8%E3%82%B9%E3%82%AD%E3%83%BC%E3%83%9E)" aria-hidden="true"></a> 実行フロー &gt; table ~ mart(外部スキーマ)</h3>
<p data-line="128" class="code-line">dbt run を実行して mart を materialized view で作成</p>
<h4 id="%E6%89%80%E6%84%9F" data-line="131" class="code-line">
<a class="header-anchor-link" href="#%E6%89%80%E6%84%9F" aria-hidden="true"></a> 所感</h4>
<p data-line="133" class="code-line">特にディレクトリ構造の複雑化が顕著で dag-factory などのツールを活用してもコードベースが大規模化する傾向にある。管理については一部サブモジュールに切り出すなど、効率化の余地がある。構成はシステム全体がAirflowに依存する形になるので、各サービスが疎結合で独立している方が望ましそう。</p>


Astronomer CosmosによるETLからダッシュボードまでのシームレスなデータ基盤構築

実行フロー > データソース ~ CSV

実行フロー > csv ~ table(概念スキーマ)

実行フロー > table ~ mart(外部スキーマ)

Discussion