Open1
【第4話】緊急メンテ40分間の戦いとDNS切り替え成功 (draft)
これまで2回失敗した後、3回目の本番切り替えは
正式な緊急メンテナンス枠を確保して挑んだ(=実質最後のチャンス)。
この記事は以下のシリーズの一部です
シリーズ一覧を見る
これまでの失敗をおさらい
| 回数 | 月 | 失敗内容 | 対応 |
|---|---|---|---|
| 1回目 | 2020/5 | HTTP/2でレガシー画面全滅 | DNS即戻し |
| 2回目 | 2020/7 | F5連打でDB即タヒ | DNS即戻し |
| 3回目 | 2020/8 | ← 本話(緊急メンテナンス枠で生切り替え) |
3回目(2020年8月某日 夜間)—— 緊急メンテナンス枠での決戦
| 項目 | 内容 |
|---|---|
| メンテナンス時間帯 | 05:00〜06:00(正式緊急メンテナンス枠) |
| 切り替え方式 | DNS切り替え(TTL 1分) |
| 事前準備 | 登録API完全停止、過去2回の教訓すべて反映 |
切り替え直後の現実(やっぱり来た)
05:00 DNS切り替え実行
05:02 CDNキャッシュゼロ → 全リクエスト直撃 → 503連発
05:03 「来たぞ……!」(全員覚悟完了)
夜明け前の40分間(Slackリアルタイム)
05:03 レプリカ10→30
05:05 まだ足りない → 50へ
05:10 キャッシュヒット率 30%→50%→70%
05:15 負荷が下がり始めた…
05:25 ヒット率90%超
05:30 レプリカ50→30→15にスケールダウン
05:40 全指標正常 → 成功宣言
05:45 誰も喋らず「お疲れ……」だけが流れる
止めなかった。
2回の即ロールバック経験があったからこそ、
「もう絶対に戻さない」と全員が腹を括っていた。
これで全世界の画像URLが完全に新環境に移行完了。
次回、第5話:「やっと終わったと思ったら絵文字でまた失敗した話」
170TB・17億ファイルの画像移行で3回目の正直・2020年の全記録
第4話 完