Closed5

2023/03/08 の Datadog の障害について

wintwint

モチベ

managed k8s は塩漬けできなそうで怖いので、詳細を理解したい。

概要

Ubuntu による systemd の緊急更新によって、予定外の daemonの再起動 および 設定の削除 が発生して、全球ダウンが発生した。

レポート

5月16日:

https://www.datadoghq.com/ja/blog/2023-03-08-multiregion-infrastructure-connectivity-issue/

5月24日:

https://www.datadoghq.com/ja/blog/engineering/2023-03-08-deep-dive-into-platform-level-impact/

6月1日:

https://www.datadoghq.com/ja/blog/engineering/2023-03-08-deep-dive-into-incident-response/

6月16日:

https://www.datadoghq.com/ja/blog/engineering/2023-03-08-deep-dive-into-platform-level-recovery/

wintwint

ref.

https://www.kolide.com/features/checks/ubuntu-unattended-upgrades

The Unattended Upgrades feature of Ubuntu (and other Debian-based distros) ensures that important security patches for installed packages are automatically downloaded and installed without needing any manual intervention from an end-user (hence the word unattended).

https://www.cyberciti.biz/faq/set-up-automatic-unattended-updates-for-ubuntu-20-04/

https://help.ubuntu.com/community/AutomaticSecurityUpdates

wintwint

時系列

  • 2020年12月: 究極要因の発生。 systemd v248 の新機能が公開された。
  • 2022年11月: 本番環境の Ubuntu 22.04 への適用を始めた。
  • 2023年3月7日: systemd の security patch が公開された。
  • 2023年3月8日 06:00 UTC: Apt Systemd Daily の timer によって自動更新が開始した。
wintwint

なぜ落ちたか分かったので、さしあたりメカニズムの解説は不要だ。とじる。

このスクラップは2023/07/30にクローズされました