Open1

【第4話】緊急メンテ40分間の戦いとDNS切り替え成功 (draft)

kamadomakamadoma

これまで2回失敗した後、3回目の本番切り替えは
正式な緊急メンテナンス枠を確保して挑んだ(=実質最後のチャンス)。

この記事は以下のシリーズの一部です
シリーズ一覧を見る


これまでの失敗をおさらい

回数 失敗内容 対応
1回目 2020/5 HTTP/2でレガシー画面全滅 DNS即戻し
2回目 2020/7 F5連打でDB即タヒ DNS即戻し
3回目 2020/8 ← 本話(緊急メンテナンス枠で生切り替え)

3回目(2020年8月某日 夜間)—— 緊急メンテナンス枠での決戦

項目 内容
メンテナンス時間帯 05:00〜06:00(正式緊急メンテナンス枠)
切り替え方式 DNS切り替え(TTL 1分)
事前準備 登録API完全停止、過去2回の教訓すべて反映

切り替え直後の現実(やっぱり来た)

05:00 DNS切り替え実行
05:02 CDNキャッシュゼロ → 全リクエスト直撃 → 503連発
05:03 「来たぞ……!」(全員覚悟完了)

夜明け前の40分間(Slackリアルタイム)

05:03  レプリカ10→30
05:05  まだ足りない → 50へ
05:10  キャッシュヒット率 30%→50%→70%
05:15  負荷が下がり始めた…
05:25  ヒット率90%超
05:30  レプリカ50→30→15にスケールダウン
05:40  全指標正常 → 成功宣言
05:45  誰も喋らず「お疲れ……」だけが流れる

止めなかった。
2回の即ロールバック経験があったからこそ、
「もう絶対に戻さない」と全員が腹を括っていた。

これで全世界の画像URLが完全に新環境に移行完了

次回、第5話:「やっと終わったと思ったら絵文字でまた失敗した話」


170TB・17億ファイルの画像移行で3回目の正直・2020年の全記録
第4話 完