Closed5
2023/03/08 の Datadog の障害について
モチベ
managed k8s は塩漬けできなそうで怖いので、詳細を理解したい。
概要
Ubuntu による systemd の緊急更新によって、予定外の daemonの再起動 および 設定の削除 が発生して、全球ダウンが発生した。
レポート
5月16日:
5月24日:
6月1日:
6月16日:
原因
- Ubuntu が提供する legacy security update channel が緊急で自動更新を適用したらしい。
- Ubuntu Pro か?
- GKE 上の Ubuntu Pro か?
- Datadog が利用してたのは
unattended-upgrades
だと言う。
ref.
The Unattended Upgrades feature of Ubuntu (and other Debian-based distros) ensures that important security patches for installed packages are automatically downloaded and installed without needing any manual intervention from an end-user (hence the word unattended).
時系列
- 2020年12月: 究極要因の発生。
systemd
v248 の新機能が公開された。 - 2022年11月: 本番環境の Ubuntu 22.04 への適用を始めた。
- 2023年3月7日:
systemd
の security patch が公開された。 - 2023年3月8日 06:00 UTC: Apt Systemd Daily の timer によって自動更新が開始した。
なぜ落ちたか分かったので、さしあたりメカニズムの解説は不要だ。とじる。
このスクラップは2023/07/30にクローズされました