🌏

Delta Live Tablesにおける強化オートスケーリングの仕組みと設計ベストプラクティス

2025/07/31に公開

 第1章 はじめにデータ駆動型の意思決定が企業における競争力の源泉となる中で、リアルタイム性を求めるストリーミングデータパイプラインの重要性はますます高まっています。これに伴い、スパイクや変動の激しいデータ到着レートに対して、いかに安定して・低遅延で処理を行うかという課題に直面するケースも増えています。
Databricksが提供する Delta Live Tables（DLT） は、そうしたニーズに応えるための信頼性の高いストリーミングETL基盤として注目されています。特に2022年末に発表された 「強化オートスケーリング（Enhanced Autoscaling）」機能は、リソースの自動制御により、レイテンシSLAを維持しながらコスト最適化を実現する画期的な機能です。
従来のSparkのDynamic Resource Allocationでは実現が難しかった「予測的スケールアウト」や「安全なスケールイン」といった動作が、DLT においては実運用に耐えうる形で実装されています。しかしその挙動を正しく理解せずに導入すると、過剰スケールによるコスト増大や、スケールインしないことによるリソースの無駄遣いに繋がる恐れもあります。
本記事では、以下のような観点から DLT の強化オートスケーリングについて、技術的に深掘りし、設計・運用上の実践ポイントを明らかにします。
強化オートスケーリングがどのような条件で台数を増減させるのか

pending task数やspark.sql.shuffle.partitionsの設定が与える影響
レイテンシとコストのトレードオフをどう制御するか
UI上での監視方法とトラブル対応の観点
DLT をこれから導入・運用していく方はもちろん、既に利用しているがスケーリング挙動が予測しづらいと感じている方にとっても、本記事が構成設計とチューニングの一助となれば幸いです。
以下のサイト情報をより詳細に説明することを目的として、本ブログは記載しています。

Build Reliable and Cost Effective Streaming Data Pipelines With Delta Live Tables’ Enhanced Autoscaling
Optimize the cluster utilization of Lakeflow Declarative Pipelines with Autoscaling

 第2章 DLTの強化オートスケーリングとは？Delta Live Tables（DLT）は、Databricksが提供する管理型のストリーミングETLフレームワークです。宣言的なパイプライン定義（@dlt.tableなど）で構築でき、スキーマ管理、エラーハンドリング、データ品質検査などが組み込まれた「信頼性の高いデータパイプライン」を低運用コストで実現します。
こうしたストリーミングワークロードでは、データの到着レートが時間帯やイベントによって大きく変動するという課題が避けられません。例えば、以下のような状況です：
IoT センサーからの断続的なデータ送信
バッチ的に到着するイベントログ
時間帯によって偏る Kafka のデータ流量
このような変動に対応するには、ワークロードに応じてリソース（ノード数）を動的に増減する仕組みが不可欠です。そこで登場するのがDLTの「強化オートスケーリング（Enhanced Autoscaling）」機能です。

 🔁従来の Dynamic Resource Allocation（DRA）との違いSpark自体にもspark.dynamicAllocation.enabledによるオートスケーリング機能はありますが、これは以下のような制限がありました：


比較軸
Dynamic Resource Allocation
Enhanced Autoscaling


スケーリング速度
保守的・遅い
予測的・高速

トリガー指標
Executorアイドル時間
pending task 数 + スロット使用率

ストリーミング対応
部分的・非推奨
フル対応（DLT特化）

安定性
タスク完了待ちの制御が難しい
段階的・安全なスケールイン制御

初期起動
Executor 0 台から始まる
初期負荷を予測して起動済構成に


 ⚙️Enhanced Autoscaling の主要な特徴1. プロアクティブなスケールアウト
pending task数やバックログ長を監視し、
スパイクの兆候を検知すると複数ノードを同時にスケールアウト
Kafkaなどの突発的なイベント流量増加にも即応
2. 段階的で安全なスケールイン
Executorがアイドルになっていても即座に削除せず、
タスクの完了状態・レイテンシへの影響を考慮しながら段階的に縮小
状態管理付きの集約（stateful operator）でも安定動作
3. SLA維持を優先した判断ロジック
ユーザが定義する SLA（遅延閾値）に近づくと、
ノード数を維持・または増加させてレスポンスを保証
コストとレイテンシのトレードオフを自動最適化

 ☁️ Serverless モードとの連携DLT Enhanced Autoscaling は、DatabricksのSparkクラスタ上で動作し、バッチ処理部分では Photon エンジンが活用されるケースもあります。これにより：
ノードの迅速な起動・停止によるスケーリング反応性の向上
水平スケーリング（ノード数）によりスパイク対応、過剰リソースを自動制御
バッチステップにおけるPhoton利用でクエリ実行の高速化・CPU効率向上

 🎯 適用ユースケース

ユースケース
Enhanced Autoscaling が特に有効な理由


Kafkaなどのイベント処理
スパイクに即応、レイテンシSLAを維持

IoTデバイス連携
時間帯変動の大きいデータ流量に対応

マルチテナントパイプライン
同時実行時のスケーリング最適化


 第3章 スケーリング判断の内部メカニズムDelta Live Tables（DLT）のEnhanced Autoscalingは、Spark標準のDynamic Resource Allocation（DRA）を拡張し、ストリーミング負荷の変動に即応しながらリソースを自律制御します。

 3-1 コアメトリクスは2つ

メトリクス
役割
スケールへの影響


Task slot utilization
Executor 内のスロット使用率
（Busy / Total）
高止まり → スケールアウト候補
低下が継続 → スケールイン候補


Task queue size
(= Pending tasks)
Executor に割り当て待ちのタスク数
増加 → ノード追加
ゼロ近傍 → ノード削減

!ポイント

レイテンシやバックログ Age は UI で可視化されますが、公式ロジックでは補助的な参考指標であり、直接のトリガーではありません。

 3-2 スケールアウト（ノード追加）Task queue sizeが閾値超過
Slot utilizationが高止まり
予測アルゴリズムが “今後もbacklogが増える” と判断

⇒複数ノードを並列起動してbacklogを素早く解消します。Kafkaなど突発的スパイクにも数十秒で追従します。
!Backlogとは

Backlog = “まだ Executor に割り当てられていない待機タスクの集合”

（＝ Task queue size／Pending tasksと同義）

作られ方
マイクロバッチ生成やシャッフル後にタスクが大量に発行されると、即時に実行スロットへ入り切らずBacklogが発生。


Enhanced Autoscaling との関係
Backlogが増える ⇒ 「処理能力不足」と判断しスケールアウト。
acklog が解消 ⇒ 「リソース過剰」と判断しスケールイン。

バックログを可視化することで、現在の処理負荷とスケーリング判断の妥当性が一目で分かるはず。


 3-3 スケールイン（ノード削減）Task queueがゼロ付近で安定

Slot utilizationが低下（アイドルスロットが継続）

長時間実行タスクや Stateful Operatorが完了したことを確認

⇒ 段階的にExecutorを停止し、安全に最小構成（min_workers）まで縮小します。

 3-4 主要設定パラメータ

パラメータ
意味
設計ヒント


autoscale.min_workers
最少ワーカー数
0 にはできない（Driver + α を維持）

autoscale.max_workers
最大ワーカー数
スパイク量に合わせて余裕を持たせる

spark.sql.shuffle.partitions
シャッフル後のタスク数
値が大きいとtaskが増え縮小しにくいので注意

dlt.pipeline.trigger.interval
マイクロバッチ間隔
短いほどbacklogが発生しやすく、スケールアウトが早まる


 3-5 スケーリングが期待通りに動かない代表例と対処

現象
主因
対処例


ノードが減らない
シャッフルパーティション過多でタスク数が常に多い

spark.sql.shuffle.partitionsを適正値へ

ノードが増えない

max_workersが小さ過ぎる
上限を引き上げる

レイテンシが乱高下
大粒度タスクが長時間ブロッキング
タスク粒度を細かく分割
（再パーティショニング）


 3-6 まとめEnhanced AutoscalingはTask slot utilizationとTask queue sizeという2指標を基軸に、ストリーミングのスパイクにもリアルタイムでリソースを調整します。

適切なパーティション設計とmin/max_workersのチューニングを行うことで、レイテンシSLAとコスト効率を両立したパイプライン運用が可能になります。

 第4章 pending task とタスク数の役割Enhanced Autoscalingがリソース増減を判断するうえで最も重視するメトリクスの一つが Task queue size（= pending tasks） です。本章では、その生成メカニズムとスケーリングへの影響を整理し、設計・チューニング時に押さえるべきポイントを示します。

 4-1 pending task とは？

用語
定義
UI 表示名


pending task
Executorにまだ割り当てられていない 待機中のタスク
Queued tasks / Task queue size

待機タスクの集合＝バックログ（backlog） と考えて構いません。Spark Driverがタスクを生成するペース ＞ Executorが実行できるペースになるとbacklogが蓄積します。

 4-2 タスクはどこで・どれだけ生まれるか

発生ポイント
概要
タスク数に影響する主因


マイクロバッチ生成
入力ソースごとに 1 バッチ = 1 Stage
trigger.interval が短いほど頻出

変換 Stage

map / filterなど流し処理
入力パーティション数をほぼ維持

シャッフル Stage

join / groupBy / windowなど一次集約

spark.sql.shuffle.partitionsの値がそのままタスク数になる

再シャッフル
状態保持演算子が多数のupdateを発行
キー分布の偏りでタスクが集中することも

!ポイント

タスク数は “パーティション数 × Stage 数” でおおよそ決まり、パーティション設計がバックログ量を直接左右します。

 4-3 pending task とスケーリング判断┌─ backlog 増
│   queue size ↑
│   slot利用率も高
└─> Enhanced Autoscaling: Scale-out
       (複数ノード同時追加)
       
┌─ backlog 解消
│   queue size ≈ 0
│   slot利用率 ↓
└─> Enhanced Autoscaling: Scale-in
       (段階的にノード削減)

queue sizeが増えるほど「処理能力不足」と判定 → ノード追加

queue sizeがゼロ近傍で安定 & アイドルスロットが継続 → ノード削減候補
Driverは毎数秒 metricsを送信し、判断はほぼリアルタイム

 4-4 設計・チューニング上の着眼点

課題
症状
典型的な原因
改善アプローチ


ノードが減らない
queue sizeが常に数百～千以上
シャッフルパーティションが過大
章5 で扱う適正値設定

ノードが増えない
queue sizeが急増しても横ばい

max_workersが小さい／タスク粒度が粗い
上限引上げ・パーティション細分化

レイテンシが悪化
backlog ageが伸び続ける
キー偏り・スキュー
saltingやrepartitionByRangeで分散均一化


 4-5 UI での可視化とアラート
DLT UI → “Resource Events”
Queued tasks / Slot utilization の時系列グラフ


Spark UI → “Stages”
Stage ごとの Pending Tasks カラムで偏りを確認


Databricks 監視アラート
taskQueueSize > N を閾値にアラートを飛ばし、予防保守


 4-6 まとめ
pending tasks ≒ Enhanced Autoscaling の燃料

backlog が多いほどノードを増やし、解消すれば減らす──きわめてシンプルなフィードバック制御。
タスク数はパーティション設計とStage構造に依存し、過多でも過少でもコスト・レイテンシに跳ね返る。
適正なタスク粒度を設計することで、スケール挙動をコントロールしながらSLAとコストを最適化できる。
次章では、タスク数を最も大きく左右するパラメータspark.sql.shuffle.partitionsとスケーリング挙動の関係を詳しく見ていきます。

 第5章 シャッフルパーティション数とスケーリング挙動の関係shuffleを伴う演算（join / groupBy / ウィンドウ集約 など）は、spark.sql.shuffle.partitionsで決まる分割数だけタスクを生成します。

このパラメータはpending task（＝Task queue size）を直接膨らませたり絞ったりするため、Enhanced Autoscalingの動きに大きく影響します。

 5-1 シャッフルパーティション数が与える 3 つのインパクト

観点
パーティション数を大きくすると
パーティション数を小さくすると


タスク並列度
↑ タスク数が増え、並列性が向上
↓ タスク数が減り、並列性が低下

pending task
常にbacklogが多め → スケールインが遅くなる

backlogが枯渇しやすい → スケールインが早い


1タスク当たりのデータ量
小さくなりメモリ圧縮が容易
大きくなりOOM / ストラグラ―が起きやすい


 5-2 スケール挙動の典型パターンパーティション数 = 2000        パーティション数 = 100
┌ backlog 多        ┌ backlog 少
│ queue size ↑      │ queue size ↓
│ slot利用率 ↑      │ slot利用率 ↘
└─> Scale-out       └─> Scale-in
    (ノード維持)         (ノード削減)

大きすぎる設定
ノードを削減できずコストが膨らむ。
アイドルExecutorが出ないためUIでも縮小トリガーがかからない。


小さすぎる設定
並列性不足でレイテンシが延び、queue sizeが波打つ。
スパイク時はbacklogが瞬時に飽和し、急激な Scale-out → 高負荷 → 再縮小の “ジェットコースター現象” が起きやすい。


 5-3 チューニングの実践ステップ
経験則で初期値を置く
100 MB 〜 256 MB / パーティション を目安に総データ量から逆算
例）1 GB シャッフル ⇒ 8 〜 16 パーティション


DLT UIでqueue sizeとslot utilizationを観測
backlog が枯れない → 小さくする
backlog が波打つ → 大きくする


AQE（Adaptive Query Execution）の併用

spark.sql.adaptive.enabled = trueにより実行時に過剰パーティションを自動で coalesce
ただし “先に多く作って後で減らす” 動きになるため、Scale-outを誘発しやすい点に注意


サイズ固定化が難しい場合は Key スキュー対策を優先

repartitionByRangeや“salting” でキー分散を均一化し、パーティション数を過大にしなくても済む構造へ


 5-4 設計ガイドライン早見表

ユースケース
推奨パーティション数
追加の観点


IoT 高頻度ストリーム（小レコード）
大きめ（512〜2000）
Scale-inが遅くなるので min_workersを低めに設定

バッチ／マイクロバッチ混在パイプライン
中程度（200〜512）
- バッチ側ではAQEを有効化して不要パーティションを自動Coalesce
- マイクロバッチ側には AQE が効かないため、パーティション値は静的チューニングが必須

キー偏りが激しい集約
小さめから調整（100〜200）
スキュー対策を先に行うとパーティション数を抑えやすい


 5-5 まとめ
spark.sql.shuffle.partitionsはタスク数＝queue size を決定づける鍵パラメータ。

大きすぎればスケールインが起きずコスト増、小さすぎればレイテンシ悪化 ──両極端を避け、中庸 + AQE 活用が基本方針。
適正値はデータ量・レコードサイズ・キー分布で変動するため、モニタリング → 微調整のサイクルで最適域を探るのが最短ルート。

 第6章 コスト効率とパフォーマンスの両立設計Enhanced Autoscaling は “自動” とはいえ「最小コストで SLA を守る」ためにはパラメータ設計と継続的なモニタリングが不可欠です。本章では、DLT パイプラインを運用しながらコストとレイテンシをバランスさせる実践ポイントを整理します。

 6-1 基本の考え方 ── Elasticity ≠ Free

観点
押さえるべきポイント


従量課金モデル
DBU（クラスタ）／ Serverless DBU＋コンピュート単価 × 実行秒。
「スケールインが遅い＝高コスト」になる。

レイテンシ SLA
遅延閾値を超えない範囲で最小リソースを維持する。
SLA ⇒ パーティション設計 ⇒ queue size ⇒ スケーリング挙動 ⇒ コストの順で連鎖。


スパイク頻度
頻出するワークロードならmin_workersを少し高く設定し、頻繁な起動コストを抑えた方が割安になることも。


 6-2 主要パラメータと推奨チューニング

パラメータ
目的
設計ヒント


min_workers
最小台数
ワークロードが完全に止まる時間帯がある → 0 〜 1 に近づける。
小休止程度のアイドルが多い → 2〜3 台程度にして再起動オーバーヘッドを抑える。

max_workers
上限台数

peak queue size ÷ 期待スロット数 を試算し +20% で初期設定。

spark.sql.shuffle.partitions
タスク並列度
章5の手法で “queue size が枯渇せず、かつ 2〜3 分で解消できる” 値に調整。

trigger.interval
マイクロバッチ周期
レイテンシ要件が5分以上なら30s〜1minに伸ばし、batch密度を下げてコスト削減。


 6-3 典型ワークロード別ベストプラクティス

パターン
例
推奨設定


昼夜で流量ゼロ⇔ピーク
Web イベント / EC 決済

min_workers = 0 or 1でアイドル費用を極小化。
Serverless 推奨（起動 15〜30 s）。

終日コンスタント＋時々スパイク
IoT センサー

min_workers = 2〜3（スロット暖機）。
シャッフルパーティションはピークを基準に設定し、小さなバックログを許容。

高レイテンシ許容バッチ + 軽いストリーミング
日次集計＋リアルタイム監視
バッチ側のみ Photon + AQE 有効。
ストリーミングはtrigger.interval ≥ 60 s、spark.sql.shuffle.partitionsを抑えてコスト最小化。


 6-4 コストの見える化 & アラート設計
DBU 使用量ダッシュボード
Workspace → Usage からクラスタ／ジョブ単位の DBU時系列を取得し、Cost per pipelineを可視化。


Resource Events の閾値アラート
taskQueueSize > NやslotUtilization < x% for 10 minでSlack/Webhook通知。


Serverless Cost Analytics
Serverlessは “継続課金モデル” ではないため、実行秒×単価をSnowflake/Delta テーブルに ETL し、Looker／Power BI で月次レポートへ集約。


 6-5 最終チェックリスト（例）

✔
質問
目安


⬜
Backlogはピーク後5分以内にゼロへ戻るか？
SLAが10分以内なら合格

⬜
スケールイン後の Idle DBU が全体コストの < 15% に収まっているか？
15%を超えるならspark.sql.shuffle.partitionsを再調整

⬜

max_workers到達アラートが頻発していないか？
連日発生 → 上限不足 または キースキュー


 6-6 まとめコスト最適化の鍵は「queue sizeの波形を小さく保ち、かつ早く消す」設計。
パーティション設計・min/max_workersのバランス・Serverlessの垂直スケールを活用し、レイテンシを守りながら Idle DBU を最小化。

継続的なモニタリングとリファクタリングが“コスト効率 × SLA”の両立を長期的に維持する唯一の方法。

 第7章 スケーリング監視とトラブルシューティングEnhanced Autoscaling が“健康”に働いているかを判断するには、メトリクスの定常観測と異常発生時の素早い切り分けが必須です。本章では監視ポイント・分析フロー・代表的な障害の対処手順をまとめます。

 7-1 監視ダッシュボードの全体像

レイヤ
推奨 UI・ツール
主な確認ポイント



DLT UI
Resource Eventsタブ
- Queued Tasks（Task queue size）
- Task Slot Utilization
- スケールアウト／イン履歴
スケール挙動がSLAに追従しているか


Spark UI
Stages & SQLタブ
- Stage ごとの Pending Tasks
- Executor timeline
特定Stageにタスク集中・ストラグラ確認


クラスター メトリクス API
/api/2.0/clusters/events

- AUTOSCALE イベントログ
自動スケールの頻度・所要秒数


system.event_log（Delta テーブル）
- event_type IN ('AUTOSCALE', 'DRIVER_HEALTH')

長期トレンド・異常パターン分析

外部モニタリング(Slack/Webhook/Datadog)
- taskQueueSize > 閾値
- slotUtilization < 閾値（アイドル検知）
即時アラート & エスカレーション


 7-2 代表的な異常シグナルと第一対応

シグナル
兆候（UI・メトリクス）
最も多い原因
初期対応


スケールアウトしない
- Queued Tasks 増え続ける
- Utilization 高止まり

max_workersが低い／ネットワーク帯域制限
上限値引き上げ／クラスタ設定再デプロイ

スケールインしない
- Queued Tasks 常に >0
- Executor Idle 0%

spark.sql.shuffle.partitions過大／長時間タスク
パーティション数調整・大粒タスクの分割

レイテンシがスパイク
- Backlog Age 急上昇
キー偏り・ジョインスキュー
Salting / repartitionByRange で分散

OOM or Executor 再起動頻発
- Driver/Executor 再起動イベント
- GC 時間急増
垂直スケール不足（Serverless 以外）
ノードタイプ拡大／メモリ使用フラグ検証

費用が急増
- Idle DBU が 20%超
min_workers が高すぎ／インターバル短すぎ
min_workers引下げ・trigger.interval延伸


 7-3 トラブルシューティング手順（標準フロー）1) 問題検知
   └─ Slack / Datadog アラート or UI 異常値

2) 直近の AUTOSCALE イベント確認
   databricks clusters events --cluster-id <id> --event-type AUTOSCALE

3) QueuedTasks × SlotUtilization の推移を DL‐T UI で確認
   ├─ backlog が減らない → パーティション/上限台数を疑う
   └─ backlog=0 だが Idle が多い → min_workers または長寿タスクを疑う

4) Spark UI で Stage 単位の PendingTasks & Durations を比較
   └─ 特定 Stage が支配的ならコード／分散偏りを解析

5) system.event_log をクエリして長期傾向を確認
   SELECT date_trunc('day', timestamp) d, SUM(metrics.taskQueueSize) q
   FROM system.event_log WHERE pipeline_id='<id>'
   GROUP BY d ORDER BY d;

6) 設定変更 → 再デプロイ → 効果検証

 7-4 ベストプラクティス集

カテゴリ
推奨策


メトリクス保存

system.event_logを30～90日保持し、時系列トレンドをSQLで確認できるようにする

アラート閾値
- QueuedTasks > (max_workers×slots) の2倍を5分継続で通知
- Idle DBU比率 > 20% を30分継続で通知

プレッシャーテスト
Stream‐in レートを 2×, 3× にした “負荷テストパイプライン” を非本番で持ち、スケール上限の妥当性を定期検証

Postmortem
障害発生→復旧後 24 h 以内に “root cause & 再発防止策” を Confluence 等へ記録


 7-5 まとめ
Queued Tasks × SlotUtilizationの時系列をウォッチすれば、Enhanced Autoscalingの健全性はほぼ把握できる。
異常時は「設定値（min/max_workers・パーティション）→データ分散→インフラ制限」の順に切り分けるとスムーズ。
運用コストと SLA を継続的に最適化するには、データ量の変化に合わせた定期リチューニング＋監視自動化が欠かせない。

観点	パーティション数を大きくすると	パーティション数を小さくすると
タスク並列度	↑ タスク数が増え、並列性が向上	↓ タスク数が減り、並列性が低下
pending task	常にbacklogが多め → スケールインが遅くなる	backlogが枯渇しやすい → スケールインが早い
1タスク当たりのデータ量	小さくなりメモリ圧縮が容易	大きくなりOOM / ストラグラ―が起きやすい

比較軸	Dynamic Resource Allocation	Enhanced Autoscaling
スケーリング速度	保守的・遅い	予測的・高速
トリガー指標	Executorアイドル時間	pending task 数 + スロット使用率
ストリーミング対応	部分的・非推奨	フル対応（DLT特化）
安定性	タスク完了待ちの制御が難しい	段階的・安全なスケールイン制御
初期起動	Executor 0 台から始まる	初期負荷を予測して起動済構成に

ユースケース	Enhanced Autoscaling が特に有効な理由
Kafkaなどのイベント処理	スパイクに即応、レイテンシSLAを維持
IoTデバイス連携	時間帯変動の大きいデータ流量に対応
マルチテナントパイプライン	同時実行時のスケーリング最適化

メトリクス	役割	スケールへの影響
Task slot utilization	Executor 内のスロット使用率（Busy / Total）	高止まり → スケールアウト候補低下が継続 → スケールイン候補
Task queue size (= Pending tasks)	Executor に割り当て待ちのタスク数	増加 → ノード追加ゼロ近傍 → ノード削減

パラメータ	意味	設計ヒント
`autoscale.min_workers`	最少ワーカー数	0 にはできない（Driver + α を維持）
`autoscale.max_workers`	最大ワーカー数	スパイク量に合わせて余裕を持たせる
`spark.sql.shuffle.partitions`	シャッフル後のタスク数	値が大きいとtaskが増え縮小しにくいので注意
`dlt.pipeline.trigger.interval`	マイクロバッチ間隔	短いほどbacklogが発生しやすく、スケールアウトが早まる

現象	主因	対処例
ノードが減らない	シャッフルパーティション過多でタスク数が常に多い	`spark.sql.shuffle.partitions`を適正値へ
ノードが増えない	`max_workers`が小さ過ぎる	上限を引き上げる
レイテンシが乱高下	大粒度タスクが長時間ブロッキング	タスク粒度を細かく分割（再パーティショニング）

発生ポイント	概要	タスク数に影響する主因
マイクロバッチ生成	入力ソースごとに 1 バッチ = 1 Stage	trigger.interval が短いほど頻出
変換 Stage	`map` / `filter`など流し処理	入力パーティション数をほぼ維持
シャッフル Stage	`join` / `groupBy` / `window`など一次集約	`spark.sql.shuffle.partitions`の値がそのままタスク数になる
再シャッフル	状態保持演算子が多数のupdateを発行	キー分布の偏りでタスクが集中することも

課題	症状	典型的な原因	改善アプローチ
ノードが減らない	queue sizeが常に数百～千以上	シャッフルパーティションが過大	章5 で扱う適正値設定
ノードが増えない	queue sizeが急増しても横ばい	`max_workers`が小さい／タスク粒度が粗い	上限引上げ・パーティション細分化
レイテンシが悪化	backlog ageが伸び続ける	キー偏り・スキュー	saltingや`repartitionByRange`で分散均一化

ユースケース	推奨パーティション数	追加の観点
IoT 高頻度ストリーム（小レコード）	大きめ（512〜2000）	Scale-inが遅くなるので `min_workers`を低めに設定
バッチ／マイクロバッチ混在パイプライン	中程度（200〜512）	- バッチ側ではAQEを有効化して不要パーティションを自動Coalesce - マイクロバッチ側には AQE が効かないため、パーティション値は静的チューニングが必須
キー偏りが激しい集約	小さめから調整（100〜200）	スキュー対策を先に行うとパーティション数を抑えやすい

観点	押さえるべきポイント
従量課金モデル	DBU（クラスタ）／ Serverless DBU＋コンピュート単価 × 実行秒。「スケールインが遅い＝高コスト」になる。
レイテンシ SLA	遅延閾値を超えない範囲で最小リソースを維持する。 SLA ⇒ パーティション設計 ⇒ queue size ⇒ スケーリング挙動 ⇒ コストの順で連鎖。
スパイク頻度	頻出するワークロードならmin_workersを少し高く設定し、頻繁な起動コストを抑えた方が割安になることも。

パラメータ	目的	設計ヒント
`min_workers`	最小台数	ワークロードが完全に止まる時間帯がある → 0 〜 1 に近づける。小休止程度のアイドルが多い → 2〜3 台程度にして再起動オーバーヘッドを抑える。
`max_workers`	上限台数	peak queue size ÷ 期待スロット数を試算し +20% で初期設定。
`spark.sql.shuffle.partitions`	タスク並列度	章5の手法で “queue size が枯渇せず、かつ 2〜3 分で解消できる” 値に調整。
`trigger.interval`	マイクロバッチ周期	レイテンシ要件が5分以上なら30s〜1minに伸ばし、batch密度を下げてコスト削減。

パターン	例	推奨設定
昼夜で流量ゼロ⇔ピーク	Web イベント / EC 決済	`min_workers = 0 or 1`でアイドル費用を極小化。 Serverless 推奨（起動 15〜30 s）。
終日コンスタント＋時々スパイク	IoT センサー	`min_workers = 2〜3`（スロット暖機）。シャッフルパーティションはピークを基準に設定し、小さなバックログを許容。
高レイテンシ許容バッチ + 軽いストリーミング	日次集計＋リアルタイム監視	バッチ側のみ Photon + AQE 有効。ストリーミングは`trigger.interval ≥ 60 s`、`spark.sql.shuffle.partitions`を抑えてコスト最小化。

✔	質問	目安
⬜	Backlogはピーク後5分以内にゼロへ戻るか？	SLAが10分以内なら合格
⬜	スケールイン後の Idle DBU が全体コストの < 15% に収まっているか？	15%を超えるなら`spark.sql.shuffle.partitions`を再調整
⬜	`max_workers`到達アラートが頻発していないか？	連日発生 → 上限不足またはキースキュー

レイヤ	推奨 UI・ツール	主な確認ポイント
DLT UI `Resource Events`タブ	- Queued Tasks（Task queue size） - Task Slot Utilization - スケールアウト／イン履歴	スケール挙動がSLAに追従しているか
Spark UI `Stages` & `SQL`タブ	- Stage ごとの Pending Tasks - Executor timeline	特定Stageにタスク集中・ストラグラ確認
クラスターメトリクス API `/api/2.0/clusters/events`	- AUTOSCALE イベントログ	自動スケールの頻度・所要秒数
system.event_log（Delta テーブル）	- `event_type IN ('AUTOSCALE', 'DRIVER_HEALTH')`	長期トレンド・異常パターン分析
外部モニタリング(Slack/Webhook/Datadog)	- `taskQueueSize` > 閾値 - `slotUtilization` < 閾値（アイドル検知）	即時アラート & エスカレーション

シグナル	兆候（UI・メトリクス）	最も多い原因	初期対応
スケールアウトしない	- Queued Tasks 増え続ける - Utilization 高止まり	`max_workers`が低い／ネットワーク帯域制限	上限値引き上げ／クラスタ設定再デプロイ
スケールインしない	- Queued Tasks 常に >0 - Executor Idle 0%	`spark.sql.shuffle.partitions`過大／長時間タスク	パーティション数調整・大粒タスクの分割
レイテンシがスパイク	- Backlog Age 急上昇	キー偏り・ジョインスキュー	Salting / repartitionByRange で分散
OOM or Executor 再起動頻発	- Driver/Executor 再起動イベント - GC 時間急増	垂直スケール不足（Serverless 以外）	ノードタイプ拡大／メモリ使用フラグ検証
費用が急増	- Idle DBU が 20%超	min_workers が高すぎ／インターバル短すぎ	min_workers引下げ・trigger.interval延伸

カテゴリ	推奨策
メトリクス保存	`system.event_log`を30～90日保持し、時系列トレンドをSQLで確認できるようにする
アラート閾値	- QueuedTasks > (max_workers×slots) の2倍を5分継続で通知 - Idle DBU比率 > 20% を30分継続で通知
プレッシャーテスト	Stream‐in レートを 2×, 3× にした “負荷テストパイプライン” を非本番で持ち、スケール上限の妥当性を定期検証
Postmortem	障害発生→復旧後 24 h 以内に “root cause & 再発防止策” を Confluence 等へ記録

第1章 はじめに

第2章 DLTの強化オートスケーリングとは？

🔁従来の Dynamic Resource Allocation（DRA）との違い

⚙️Enhanced Autoscaling の主要な特徴

☁️ Serverless モードとの連携

🎯 適用ユースケース

第3章 スケーリング判断の内部メカニズム

3-1 コアメトリクスは2つ

3-2 スケールアウト（ノード追加）

3-3 スケールイン（ノード削減）

3-4 主要設定パラメータ

3-5 スケーリングが期待通りに動かない代表例と対処

3-6 まとめ

第4章 pending task とタスク数の役割

4-1 pending task とは？

4-2 タスクはどこで・どれだけ生まれるか

4-3 pending task とスケーリング判断

4-4 設計・チューニング上の着眼点

4-5 UI での可視化とアラート

4-6 まとめ

第5章 シャッフルパーティション数とスケーリング挙動の関係

5-1 シャッフルパーティション数が与える 3 つのインパクト

5-2 スケール挙動の典型パターン

5-3 チューニングの実践ステップ

5-4 設計ガイドライン早見表

5-5 まとめ

第6章 コスト効率とパフォーマンスの両立設計

6-1 基本の考え方 ── Elasticity ≠ Free

6-2 主要パラメータと推奨チューニング

6-3 典型ワークロード別ベストプラクティス

6-4 コストの見える化 & アラート設計

6-5 最終チェックリスト（例）

6-6 まとめ

第7章 スケーリング監視とトラブルシューティング

7-1 監視ダッシュボードの全体像

7-2 代表的な異常シグナルと第一対応

7-3 トラブルシューティング手順（標準フロー）

7-4 ベストプラクティス集

7-5 まとめ

Discussion

第1章はじめに

第3章スケーリング判断の内部メカニズム

第5章シャッフルパーティション数とスケーリング挙動の関係

第6章コスト効率とパフォーマンスの両立設計

第7章スケーリング監視とトラブルシューティング