🍣

2023-01-25 Azure Network 障害を調べてみた

2023/01/26に公開

2022-01-25 16:05 ~ 09:45 JST で Azure Network の大規模障害が発生した。
影響範囲に興味があるため、できる限り情報を集めてみる。

時間

Azure などのクラウドサービスや Global 展開しているサービスの場合 UTC で記載されるためざっくり JST に変換した表を用意した

UTC unixtime (UTC) JST 備考
2023-01-25 07:05 1674630300 2023-01-25 16:05 Azure 報告の障害開始時間
2023-01-25 09:45 1674639900 2023-01-25 18:45 Azure 報告の障害収束時間

Azure の状態

card

Azure からの history

Azure ネットワーキング - 複数のリージョン - 緩和済み - 追跡 ID: VSG1-B90

Title: Azure Networking - Multiple regions - Mitigated - 追跡 ID: VSG1-B90

影響の概要: 2023-01-25 日の 16:05 JST から 18:45 JST の間に、パブリック Azure リージョンの Azure リソースに接続しようとすると、ネットワークの待機時間やタイムアウトとして現れるネットワーク接続の問題が発生しました。 Microsoft 365 や PowerBI などの他の Microsoft サービスも同様です。

Summary of Impact: Between 07:05 UTC and 09:45 UTC on 25 January 2023, customers experienced issues with networking connectivity, manifesting as network latency and/or timeouts when attempting to connect to Azure resources in Public Azure regions, as well as other Microsoft services including Microsoft 365 and PowerBI.

暫定的な根本原因: Microsoft ワイド エリア ネットワーク (WAN) に加えられた変更が、インターネット上のクライアント間の Azure への接続、リージョン内のサービス間の接続、および ExpressRoute 接続に影響を与えると判断しました。

Preliminary Root Cause: We determined that a change made to the Microsoft Wide Area Network (WAN) impacted connectivity between clients on the internet to Azure, connectivity between services within regions, as well as ExpressRoute connections.

緩和策: 根本的な原因として WAN への最近の変更を特定し、この変更をロールバックしました。 ネットワーク テレメトリは、すべての地域とサービスで 09:00 UTC 以降の回復を示しており、最後のネットワーク機器は 09:35 UTC に回復しています。 影響を受けた Microsoft サービスのほとんどは、ネットワーク接続が回復すると自動的に復旧し、残りの影響を受けたサービスの復旧に取り組みました。

Mitigation: We identified a recent change to WAN as the underlying cause and have rolled back this change. Networking telemetry shows recovery from 09:00 UTC onwards across all regions and services, with the final networking equipment recovering at 09:35 UTC. Most impacted Microsoft services automatically recovered once network connectivity was restored, and we worked to recover the remaining impacted services.

次のステップ: 3 日以内に、最初の根本原因と修復項目をカバーする予備的な事後レビュー (PIR) でフォローアップします。 14 日後には、インシデントの詳細を共有する最終的な PIR でフォローアップします。

Next Steps: We will follow up in 3 days with a preliminary Post Incident Review (PIR), which will cover the initial root cause and repair items. We'll follow that up 14 days later with a final PIR where we will share a deep dive into the incident.

調べる対象の IP

status.azure.com の IPアドレス を調べて prefix を調べる
prefix は 40.80.0.0/12 になるようだ

dig @1.1.1.1 -t A status.azure.com

; <<>> DiG 9.16.1-Ubuntu <<>> @1.1.1.1 -t A status.azure.com
; (1 server found)
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 46855
;; flags: qr rd ra; QUERY: 1, ANSWER: 3, AUTHORITY: 0, ADDITIONAL: 1

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 1232
;; QUESTION SECTION:
;status.azure.com.              IN      A

;; ANSWER SECTION:
status.azure.com.       3547    IN      CNAME   status-prd.trafficmanager.net.
status-prd.trafficmanager.net. 7 IN     CNAME   azurestatusprodjpw.japanwest.cloudapp.azure.com.
azurestatusprodjpw.japanwest.cloudapp.azure.com. 10 IN A 40.81.176.150

;; Query time: 32 msec
;; SERVER: 1.1.1.1#53(1.1.1.1)
;; WHEN: Thu Jan 26 14:47:27 JST 2023
;; MSG SIZE  rcvd: 156

BGP Update を取得する

brew install bgpstream

bgpreader -e -c route-views.eqix -w 1674630300,1674639900 -t updates --prefix 40.80.0.0/12

ASN OrgName
293 ESnet
6830 RIPE NCC ASN block
6939 Hurricane Electric LLC
25885 OPAQ Networks, Inc
8068 Microsoft Corporation
8075 Microsoft Corporation
A announcement
W withdrawal
elem-type record-ts JST peer-ASn peer-IP prefix next-hop-IP AS-path origin-AS communities
W 1674630588.061086 16:09:48.061086 6939 206.126.236.37 40.95.86.0/23
W 1674630588.389868 16:09:48.389868 25885 206.126.236.234 40.95.86.0/23
W 1674630619.628273 16:10:19.628273 293 206.126.236.137 40.95.86.0/23
A 1674630642.980382 16:10:42.980382 6830 206.126.236.117 40.90.4.0/24 206.126.236.117 6830 8075 8068 8068 6830:17000 6830:17421 6830:23001 6830:34310
A 1674630642.980910 16:10:42.980910 6830 206.126.236.117 40.80.0.0/12 206.126.236.117 6830 8075 8075 6830:17000 6830:17421 6830:23001 6830:34310
A 1674632409.467821 16:40:09.467821 6939 206.126.236.37 40.95.86.0/23 206.126.236.37 6939 8075 8075
A 1674632409.669531 16:40:09.669531 25885 206.126.236.234 40.95.86.0/23 206.126.236.234 25885 10913 1828 8075 8075
A 1674632430.148658 16:40:30 293 206.126.236.137 40.95.86.0/23 206.126.236.137 293 6939 8075 8075
W 1674632579.871903 16:42:59 6939 206.126.236.37 40.95.86.0/23
W 1674632580.384365 16:43:00 25885 206.126.236.234 40.95.86.0/23
W 1674632614.170317 16:43:34 293 206.126.236.137 40.95.86.0/23
A 1674634301.659160 17:11:41 6939 206.126.236.37 40.95.86.0/23 206.126.236.37 6939 8075 8075
A 1674634302.205801 17:11:42 25885 206.126.236.234 40.95.86.0/23 206.126.236.234 25885 10913 1828 8075 8075
A 1674634311.112963 17:11:51 293 206.126.236.137 40.95.86.0/23 206.126.236.137 293 6939 8075 8075
A 1674636204.498321 17:43:24 6830 206.126.236.117 40.80.0.0/12 206.126.236.117 6830 8075 8075 6830:17000 6830:17421 6830:23001 6830:34908
A 1674636204.499436 17:43:24 6830 206.126.236.117 40.90.4.0/24 206.126.236.117 6830 8075 8068 8068 6830:17000 6830:17421 6830:23001 6830:34908
A 1674636249.642571 17:44:09 6830 206.126.236.117 40.90.4.0/24 206.126.236.117 6830 8075 8068 8068 6830:17000 6830:17421 6830:23001 6830:33125
A 1674636249.643124 17:44:09 6830 206.126.236.117 40.80.0.0/12 206.126.236.117 6830 8075 8075 6830:17000 6830:17421 6830:23001 6830:33125
A 1674636292.314968 17:44:52 6830 206.126.236.117 40.80.0.0/12 206.126.236.117 6830 8075 8075 6830:17000 6830:17421 6830:23001 6830:33122
A 1674636292.315942 17:44:52 6830 206.126.236.117 40.90.4.0/24 206.126.236.117 6830 8075 8068 8068 6830:17000 6830:17421 6830:23001 6830:33122
U|W|1674630588.061086|routeviews|route-views.eqix|||6939|206.126.236.37|40.95.86.0/23||||||
U|W|1674630588.389868|routeviews|route-views.eqix|||25885|206.126.236.234|40.95.86.0/23||||||
U|W|1674630619.628273|routeviews|route-views.eqix|||293|206.126.236.137|40.95.86.0/23||||||
U|A|1674630642.980382|routeviews|route-views.eqix|||6830|206.126.236.117|40.90.4.0/24|206.126.236.117|6830 8075 8068|8068|6830:17000 6830:17421 6830:23001 6830:34310||
U|A|1674630642.980910|routeviews|route-views.eqix|||6830|206.126.236.117|40.80.0.0/12|206.126.236.117|6830 8075|8075|6830:17000 6830:17421 6830:23001 6830:34310||
U|A|1674632409.467821|routeviews|route-views.eqix|||6939|206.126.236.37|40.95.86.0/23|206.126.236.37|6939 8075|8075|||
U|A|1674632409.669531|routeviews|route-views.eqix|||25885|206.126.236.234|40.95.86.0/23|206.126.236.234|25885 10913 1828 8075|8075|||
U|A|1674632430.148658|routeviews|route-views.eqix|||293|206.126.236.137|40.95.86.0/23|206.126.236.137|293 6939 8075|8075|||
U|W|1674632579.871903|routeviews|route-views.eqix|||6939|206.126.236.37|40.95.86.0/23||||||
U|W|1674632580.384365|routeviews|route-views.eqix|||25885|206.126.236.234|40.95.86.0/23||||||
U|W|1674632614.170317|routeviews|route-views.eqix|||293|206.126.236.137|40.95.86.0/23||||||
U|A|1674634301.659160|routeviews|route-views.eqix|||6939|206.126.236.37|40.95.86.0/23|206.126.236.37|6939 8075|8075|||
U|A|1674634302.205801|routeviews|route-views.eqix|||25885|206.126.236.234|40.95.86.0/23|206.126.236.234|25885 10913 1828 8075|8075|||
U|A|1674634311.112963|routeviews|route-views.eqix|||293|206.126.236.137|40.95.86.0/23|206.126.236.137|293 6939 8075|8075|||
U|A|1674636204.498321|routeviews|route-views.eqix|||6830|206.126.236.117|40.80.0.0/12|206.126.236.117|6830 8075|8075|6830:17000 6830:17421 6830:23001 6830:34908||
U|A|1674636204.499436|routeviews|route-views.eqix|||6830|206.126.236.117|40.90.4.0/24|206.126.236.117|6830 8075 8068|8068|6830:17000 6830:17421 6830:23001 6830:34908||
U|A|1674636249.642571|routeviews|route-views.eqix|||6830|206.126.236.117|40.90.4.0/24|206.126.236.117|6830 8075 8068|8068|6830:17000 6830:17421 6830:23001 6830:33125||
U|A|1674636249.643124|routeviews|route-views.eqix|||6830|206.126.236.117|40.80.0.0/12|206.126.236.117|6830 8075|8075|6830:17000 6830:17421 6830:23001 6830:33125||
U|A|1674636292.314968|routeviews|route-views.eqix|||6830|206.126.236.117|40.80.0.0/12|206.126.236.117|6830 8075|8075|6830:17000 6830:17421 6830:23001 6830:33122||
U|A|1674636292.315942|routeviews|route-views.eqix|||6830|206.126.236.117|40.90.4.0/24|206.126.236.117|6830 8075 8068|8068|6830:17000 6830:17421 6830:23001 6830:33122||

該当時間に origin-AS 8068 から飛んできた形跡があった平常時は 80758068 -> 8075 が upStream
となるので外部に出る出口がなかったように見える

Discussion