<h2 id="%E8%83%8C%E6%99%AF" data-line="0" class="code-line">
<a class="header-anchor-link" href="#%E8%83%8C%E6%99%AF" aria-hidden="true"></a> 背景</h2>
Athenaにはパーティション射影という機能があり、この機能を用いることでパーティションの管理を自動化することができます。一方で射影されたパーティションに対して空のパーティションが多い場合は、クエリのパフォーマンスが低下する可能性があります。そこで形式的にダミーファイルを空のパーティションに配置することで、パーティションが空の場合に対してパフォーマンスがどう変化するのかが気になり調べました。
<iframe id="zenn-embedded__7953970c8e24f" src="https://embed.zenn.studio/card#zenn-embedded__7953970c8e24f" data-content="https%3A%2F%2Fdocs.aws.amazon.com%2Fja_jp%2Fathena%2Flatest%2Fug%2Fpartition-projection.html" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://docs.aws.amazon.com/ja_jp/athena/latest/ug/partition-projection.html" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://docs.aws.amazon.com/ja_jp/athena/latest/ug/partition-projection.html</a>
<h2 id="%E3%83%91%E3%83%BC%E3%83%86%E3%82%A3%E3%82%B7%E3%83%A7%E3%83%B3%E5%8C%96%E3%81%A8%E3%81%AF" data-line="6" class="code-line">
<a class="header-anchor-link" href="#%E3%83%91%E3%83%BC%E3%83%86%E3%82%A3%E3%82%B7%E3%83%A7%E3%83%B3%E5%8C%96%E3%81%A8%E3%81%AF" aria-hidden="true"></a> パーティション化とは</h2>
データを特定の列(日付など)の値で分割することをパーティション化といいます。例えば、
<div class="code-block-container"><pre class="language-text"><code class="language-text code-line" data-line="10">s3://example-bucket/sales/date=20250101/hoge.json
s3://example-bucket/sales/date=20250102/fuga.json
</code></pre></div>のように売り上げデータを日付単位でパーティション化することができます。パーティションを設定することで、クエリに必要なデータだけをスキャンすることが可能になり、パフォーマンスを向上させることができます。
例えば、
<div class="code-block-container"><pre class="language-sql"><code class="language-sql code-line" data-line="19">select sum(amount)
from sample_table
where date = '20250101';
</code></pre></div>のようなクエリの場合、<code>date=20250101</code> のパーティションにあるデータのみをスキャンし <code>date=20250102</code> のパーティションにあるデータはスキャンしないため、クエリのパフォーマンスが向上します。Athenaは、デフォルトではGlue Data Catalogに登録されたパーティションの情報を利用します。つまり、新しいパーティションが作成された場合はGlue Data Catalogのパーティション情報もあわせて更新する必要があります。
<h2 id="%E3%83%91%E3%83%BC%E3%83%86%E3%82%A3%E3%82%B7%E3%83%A7%E3%83%B3%E5%B0%84%E5%BD%B1%E3%81%A8%E3%81%AF" data-line="27" class="code-line">
<a class="header-anchor-link" href="#%E3%83%91%E3%83%BC%E3%83%86%E3%82%A3%E3%82%B7%E3%83%A7%E3%83%B3%E5%B0%84%E5%BD%B1%E3%81%A8%E3%81%AF" aria-hidden="true"></a> パーティション射影とは</h2>
一方で、パーティション射影は事前にテーブルに設定された情報に基づいて、パーティションを計算します。そのためGlue Data Catalogからパーティション情報を取得しませんし、パーティション情報の更新も不要です。例えば
<div class="code-block-container"><pre class="language-sql"><code class="language-sql code-line" data-line="31">TBLPROPERTIES (
 'projection.enabled' = 'true',
 'projection.date.type' = 'date',
 'projection.date.range' = '20000101,20301231',
 'projection.date.format' = 'yyyyMMdd',
 'storage.location.template' = 's3://example-bucket/sales/date=${date}/'
);
</code></pre></div>のようにパーティション射影を設定すると、<code>date</code> 列の値が <code>20000101</code> から <code>20301231</code> の範囲のパーティションのデータに対してクエリすることが可能になります。
パーティション情報の管理が不要になるためパーティション射影は便利ですが、データが存在しないパーティションに対してもファイルの存在確認を行うため、空のパーティションが多い場合、クエリのパフォーマンスが低下する可能性がありそうです。
<h2 id="%E7%A9%BA%E3%81%AE%E3%83%91%E3%83%BC%E3%83%86%E3%82%A3%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%AB%E3%83%80%E3%83%9F%E3%83%BC%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%82%92%E7%BD%AE%E3%81%8F%E3%81%A8%E3%83%91%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%B3%E3%82%B9%E3%81%AF%E5%90%91%E4%B8%8A%E3%81%99%E3%82%8B%E3%81%8B" data-line="45" class="code-line">
<a class="header-anchor-link" href="#%E7%A9%BA%E3%81%AE%E3%83%91%E3%83%BC%E3%83%86%E3%82%A3%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%AB%E3%83%80%E3%83%9F%E3%83%BC%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%82%92%E7%BD%AE%E3%81%8F%E3%81%A8%E3%83%91%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%B3%E3%82%B9%E3%81%AF%E5%90%91%E4%B8%8A%E3%81%99%E3%82%8B%E3%81%8B" aria-hidden="true"></a> 空のパーティションにダミーファイルを置くとパフォーマンスは向上するか</h2>
先述のとおり、空のパーティションが多い場合パフォーマンスが低下する可能性がありそうです。では、空のパーティションにダミーファイルを置くとパフォーマンスは向上するのでしょうか。以下のとおり検証してみました。
<h2 id="%E6%A4%9C%E8%A8%BC%E6%96%B9%E6%B3%95" data-line="49" class="code-line">
<a class="header-anchor-link" href="#%E6%A4%9C%E8%A8%BC%E6%96%B9%E6%B3%95" aria-hidden="true"></a> 検証方法</h2>
<ul data-line="51" class="code-line">
<li data-line="51" class="code-line">パーティション数はパーティション射影で設定された20200101から20301231までの約11,000日分とした。</li>
<li data-line="52" class="code-line">空のパーティションの割合を0%, 10%, 20%, ...と10%刻みで変更し、空のパーティションのままの場合とダミーファイルを置いた場合でクエリのパフォーマンスを比較した。</li>
<li data-line="53" class="code-line">検証クエリは約11,000のパーティションをフルスキャンするものとした。</li>
<li data-line="54" class="code-line">パフォーマンスについてクエリの11回の実行時間の中央値で比較した。</li>
</ul>
データ作成に用いたコードは末尾に掲載します。
<h2 id="%E6%A4%9C%E8%A8%BC%E7%B5%90%E6%9E%9C" data-line="58" class="code-line">
<a class="header-anchor-link" href="#%E6%A4%9C%E8%A8%BC%E7%B5%90%E6%9E%9C" aria-hidden="true"></a> 検証結果</h2>
検証結果としては、想定とは違い ほとんどのケースでダミーファイルを配置したほうが速い 傾向にありました。ダミーファイルを置く実装が追加で必要になるため、実際に置くかどうかは検討が必要ですが、速度の観点からはダミーファイルを置くほうがよさそうです。
<img src="https://res.cloudinary.com/zenn/image/fetch/s--qE17ZlvP--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_1200/https://storage.googleapis.com/zenn-user-upload/deployed-images/a31fa4a7d2cb94061aaa8747.png%3Fsha%3D2c2813ee887940d019bc937dfbe52eae026809d9" class="md-img" loading="lazy">
<h3 id="appendix" data-line="64" class="code-line">
<a class="header-anchor-link" href="#appendix" aria-hidden="true"></a> Appendix</h3>
以下のコードで検証用のファイルを生成しました
<div class="code-block-container"><pre class="language-python"><code class="language-python code-line" data-line="68">import gzip
import json
import os
import shutil
from datetime import datetime, timedelta

import awswrangler as wr


def create_test_blank_data(target_remainders, make_blank_file):
 # sales/下のファイルを削除
 if os.path.exists("sales"):
 shutil.rmtree("sales")
 start_date = datetime(2000, 1, 1)
 end_date = datetime(2030, 12, 31)

 current_date = start_date

 while current_date &lt;= end_date:
 date_str = current_date.strftime("%Y%m%d")
 day_count = (current_date - start_date).days

 # 指定した割合でデータありファイル作成
 if day_count % 10 in target_remainders:
 data = [
 {"id": "user1", "amount": 1},
 {"id": "user2", "amount": 2},
 {"id": "user3", "amount": 3},
 ]

 os.makedirs(f"sales/date={date_str}", exist_ok=True)

 with gzip.open(f"sales/date={date_str}/data.json.gz", "wt") as f:
 for record in data:
 f.write(json.dumps(record) + "\n")
 elif make_blank_file:
 # ダミーファイル作成
 os.makedirs(f"sales/date={date_str}", exist_ok=True)

 with gzip.open(f"sales/date={date_str}/data.json.gz", "wt") as f:
 f.write("{}")
 else:
 pass
 current_date += timedelta(days=1)
</code></pre></div>

空のパーティションにダミーファイルを置くとAthenaのクエリのパフォーマンスは向上するのか？

空のパーティションにダミーファイルを置くとパフォーマンスは向上するか

Discussion