<h2 id="%E3%81%AF%E3%81%98%E3%82%81%E3%81%AB%EF%BC%9Aaws%E3%82%92%E6%8F%BA%E3%82%8B%E3%81%8C%E3%81%97%E3%81%9F%E5%A4%A7%E8%A6%8F%E6%A8%A1%E9%9A%9C%E5%AE%B3" data-line="0" class="code-line">
<a class="header-anchor-link" href="#%E3%81%AF%E3%81%98%E3%82%81%E3%81%AB%EF%BC%9Aaws%E3%82%92%E6%8F%BA%E3%82%8B%E3%81%8C%E3%81%97%E3%81%9F%E5%A4%A7%E8%A6%8F%E6%A8%A1%E9%9A%9C%E5%AE%B3" aria-hidden="true"></a> はじめに：AWSを揺るがした大規模障害</h2>
<p data-line="2" class="code-line">2025年10月20日、多くのWebサービスやアプリケーションの基盤であるAmazon Web Services (AWS) で大規模な障害が発生しました。日本時間の夕方ごろから、SNS、ニュースサイト、ゲーム、金融サービスに至るまで、世界中のさまざまなプラットフォームで接続エラーや遅延が報告され、私たちのデジタルライフに大きな影響を及ぼしました。</p>
<p data-line="4" class="code-line">本記事では、この障害がなぜ局所的な問題にとどまらず、グローバルなインシデントに発展したのかを、AWSのアーキテクチャに潜む構造的な課題、特に「単一障害点 (Single Point of Failure)」の観点から深掘りして分析します。</p>
<p data-line="6" class="code-line"><em>本記事は、障害発生時点での報道や公開情報、筆者の知見を基に構成しており、AWSの公式な見解ではありません。</em></p>
<h2 id="%E9%9A%9C%E5%AE%B3%E3%81%AE%E3%82%BF%E3%82%A4%E3%83%A0%E3%83%A9%E3%82%A4%E3%83%B3%E3%81%A8%E5%BD%B1%E9%9F%BF%E7%AF%84%E5%9B%B2" data-line="8" class="code-line">
<a class="header-anchor-link" href="#%E9%9A%9C%E5%AE%B3%E3%81%AE%E3%82%BF%E3%82%A4%E3%83%A0%E3%83%A9%E3%82%A4%E3%83%B3%E3%81%A8%E5%BD%B1%E9%9F%BF%E7%AF%84%E5%9B%B2" aria-hidden="true"></a> 障害のタイムラインと影響範囲</h2>
<p data-line="10" class="code-line"><a href="https://health.aws.amazon.com/health/status" target="_blank" rel="nofollow noopener noreferrer">AWSの公式発表</a>に基づくと、障害は以下のタイムラインで進行しました。</p>
<table data-line="12" class="code-line">
<thead data-line="12" class="code-line">
<tr data-line="12" class="code-line">
<th style="text-align:left">AWS 公式発表時間 (PDT)</th>
<th style="text-align:left">日本時間 (JST)</th>
<th style="text-align:left">内容の要約</th>
</tr>
</thead>
<tbody data-line="14" class="code-line">
<tr data-line="14" class="code-line">
<td style="text-align:left">Oct 20 12:11 AM PDT</td>
<td style="text-align:left">Oct 20 4:11 PM JST</td>
<td style="text-align:left">
<strong>最初の確認</strong>: US-EAST-1で複数のAWSサービスのエラー率と遅延が増加。</td>
</tr>
<tr data-line="15" class="code-line">
<td style="text-align:left">Oct 20 12:51 AM PDT</td>
<td style="text-align:left">Oct 20 4:51 PM JST</td>
<td style="text-align:left">
<strong>障害の特定開始</strong>: US-EAST-1で複数のAWSサービスのエラー率と遅延が上昇していることを確認。サポートケースの作成にも影響。</td>
</tr>
<tr data-line="16" class="code-line">
<td style="text-align:left">Oct 20 1:26 AM PDT</td>
<td style="text-align:left">Oct 20 5:26 PM JST</td>
<td style="text-align:left">
<strong>DynamoDBの確認</strong>: US-EAST-1のDynamoDBエンドポイントへのリクエストで著しいエラー率を確認。他のサービスにも影響。</td>
</tr>
<tr data-line="17" class="code-line">
<td style="text-align:left">Oct 20 2:01 AM PDT</td>
<td style="text-align:left">Oct 20 6:01 PM JST</td>
<td style="text-align:left">
<strong>根本原因の特定</strong>: DynamoDB APIエンドポイントのDNS解決に関連する問題が潜在的な根本原因であると特定。IAM更新などグローバルサービスへの影響を明記。</td>
</tr>
<tr data-line="18" class="code-line">
<td style="text-align:left">Oct 20 2:22 AM PDT</td>
<td style="text-align:left">Oct 20 6:22 PM JST</td>
<td style="text-align:left">
<strong>緩和の開始</strong>: 初期緩和策を適用し、一部のサービスで回復の兆候。リトライ推奨。</td>
</tr>
<tr data-line="19" class="code-line">
<td style="text-align:left">Oct 20 2:27 AM PDT</td>
<td style="text-align:left">Oct 20 6:27 PM JST</td>
<td style="text-align:left">
<strong>回復の兆候</strong>: 大幅な回復の兆候が見られ、ほとんどのリクエストが成功し始めている。</td>
</tr>
<tr data-line="20" class="code-line">
<td style="text-align:left">Oct 20 3:03 AM PDT</td>
<td style="text-align:left">Oct 20 7:03 PM JST</td>
<td style="text-align:left">
<strong>広範な回復</strong>: 影響を受けた大半のサービスで回復を観測。US-EAST-1に依存するグローバル機能も回復を確認。</td>
</tr>
<tr data-line="21" class="code-line">
<td style="text-align:left">Oct 20 3:35 AM PDT</td>
<td style="text-align:left">Oct 20 7:35 PM JST</td>
<td style="text-align:left">
<strong>DNS問題の緩和</strong>: 基盤となるDNSの問題は完全に緩和されたと報告。しかし、新規EC2インスタンスの起動（およびECSなどの依存サービス）でエラーが残存。</td>
</tr>
<tr data-line="22" class="code-line">
<td style="text-align:left">Oct 20 4:48 AM PDT</td>
<td style="text-align:left">Oct 20 8:48 PM JST</td>
<td style="text-align:left">
<strong>EC2/Lambdaの問題継続</strong>: 新規EC2起動エラーの完全復旧に引き続き取り組み。SQS Event Source Mappingsを用いたLambdaのポーリング遅延も継続。</td>
</tr>
<tr data-line="23" class="code-line">
<td style="text-align:left">Oct 20 6:42 AM PDT</td>
<td style="text-align:left">Oct 20 10:42 PM JST</td>
<td style="text-align:left">
<strong>回復作業継続</strong>: US-EAST-1の複数のアベイラビリティゾーンで緩和策を適用。新規EC2起動の復旧のため起動レートを制限。</td>
</tr>
</tbody>
</table>
<h3 id="%E3%82%AD%E3%83%A3%E3%83%83%E3%82%B7%E3%83%A5%E3%81%8C%E9%9A%A0%E3%81%97%E3%81%9F%E9%9A%9C%E5%AE%B3%E3%81%AE%E9%80%A3%E9%8E%96%E3%81%A8%E4%BA%8C%E6%AC%A1%E7%81%BD%E5%AE%B3" data-line="25" class="code-line">
<a class="header-anchor-link" href="#%E3%82%AD%E3%83%A3%E3%83%83%E3%82%B7%E3%83%A5%E3%81%8C%E9%9A%A0%E3%81%97%E3%81%9F%E9%9A%9C%E5%AE%B3%E3%81%AE%E9%80%A3%E9%8E%96%E3%81%A8%E4%BA%8C%E6%AC%A1%E7%81%BD%E5%AE%B3" aria-hidden="true"></a> キャッシュが隠した障害の連鎖と二次災害</h3>
<p data-line="27" class="code-line">タイムラインを見ると、障害の検知から根本原因の特定まで約2時間かかっていますが、多くのユーザーが実際に影響を感じ始めたのはさらに後でした。これは、CDN（コンテンツデリバリーネットワーク）によるコンテンツ配信や、各サービスが持つ認証情報のキャッシュなど、さまざまなレイヤーのキャッシュ機構が、一時的に障害の影響を覆い隠していたためです。</p>
<p data-line="29" class="code-line">しかし、これらのキャッシュの有効期限（TTL）が切れると、サービスはAWSのバックエンドに再度アクセスを試みます。その結果、根本原因であるDNS解決の異常に突き当たり、次々とサービスが機能不全に陥っていきました。「エルデンリング」や「FGO」といった大規模オンラインゲームが、他のサービスより遅れてダウンし始めたのは、まさにこの時間差攻撃によるものだと考えられます。</p>
<p data-line="31" class="code-line">さらに、事態を悪化させたのが「リトライストーム」です。キャッシュが切れてエラーを吐き始めても、クライアントやサーバーはすぐには諦めず、機械的にリクエストを再試行します。この無数のリトライが嵐のように押し寄せ、AWSのネットワークバックボーンや、復旧しかけていたサービスに対して、自己増殖的なDDoS攻撃のような状態を生み出します。この二次災害が、AWS側の復旧作業をさらに困難にし、障害の長期化を招いた一因とも言えるでしょう。</p>
<p data-line="33" class="code-line">このリトライストームの凄まじさは、障害発生時に観測された興味深い現象からも伺えます。当時、リアルタイム障害検知サイト「Downdetector」では、AWSと直接関係ないはずのGoogle CloudやMicrosoft Azureの障害ゲージまでもが上昇していました。もちろん、両社から公式な障害報告はありません。これは、AWSを原因とする接続エラーに遭遇したユーザーが、原因を切り分けられずに「Googleが落ちた」「Azureに繋がらない」とSNSに投稿し、それをDowndetectorが検知した結果と考えられます。リトライストームがインターネット全体に与える負荷を考慮すれば、実際にこれらのサービスへの接続が不安定になった可能性も否定できず、障害の混乱が広範囲に及んでいたことを示す好例と言えます。</p>
<h3 id="%E5%BA%83%E7%AF%84%E5%9B%B2%E3%81%AB%E5%8F%8A%E3%82%93%E3%81%A0%E5%BD%B1%E9%9F%BF" data-line="35" class="code-line">
<a class="header-anchor-link" href="#%E5%BA%83%E7%AF%84%E5%9B%B2%E3%81%AB%E5%8F%8A%E3%82%93%E3%81%A0%E5%BD%B1%E9%9F%BF" aria-hidden="true"></a> 広範囲に及んだ影響</h3>
<p data-line="37" class="code-line">最終的に、影響は以下のような主要サービスにまで及び、世界中のデジタルインフラが不安定な状態に陥りました。</p>
<ul data-line="39" class="code-line">
<li data-line="39" class="code-line">
<strong>SNS:</strong> Snapchat, WhatsApp</li>
<li data-line="40" class="code-line">
<strong>ゲーム:</strong> Fortnite, Roblox, Pokémon GO</li>
<li data-line="41" class="code-line">
<strong>金融:</strong> Bank of Scotland, Halifax, Lloyds Bank, Coinbase, Robinhood</li>
<li data-line="42" class="code-line">
<strong>Amazon関連:</strong> Amazon.com, Alexa, Prime Video, Amazon Music</li>
</ul>
<h2 id="%E5%8E%9F%E5%9B%A0%E5%88%86%E6%9E%90%EF%BC%9Aus-east-1%E3%81%A8dynamodb%E3%81%AE%E3%80%8C%E5%8D%98%E4%B8%80%E9%9A%9C%E5%AE%B3%E7%82%B9%E3%80%8D" data-line="44" class="code-line">
<a class="header-anchor-link" href="#%E5%8E%9F%E5%9B%A0%E5%88%86%E6%9E%90%EF%BC%9Aus-east-1%E3%81%A8dynamodb%E3%81%AE%E3%80%8C%E5%8D%98%E4%B8%80%E9%9A%9C%E5%AE%B3%E7%82%B9%E3%80%8D" aria-hidden="true"></a> 原因分析：US-EAST-1とDynamoDBの「単一障害点」</h2>
<p data-line="46" class="code-line">AWSのステータスページや複数の報道によると、障害の根本原因は <strong>US-EAST-1（バージニア北部）リージョンにおけるDNSの解決異常</strong> にあり、特にキーバリューストアである<strong>Amazon DynamoDB</strong>が深く関与していることが示唆されています。</p>
<h3 id="%E3%82%B0%E3%83%AD%E3%83%BC%E3%83%90%E3%83%AB%E3%82%B5%E3%83%BC%E3%83%93%E3%82%B9%E3%81%AE%E3%83%9B%E3%83%BC%E3%83%A0%E3%83%AA%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%B3" data-line="48" class="code-line">
<a class="header-anchor-link" href="#%E3%82%B0%E3%83%AD%E3%83%BC%E3%83%90%E3%83%AB%E3%82%B5%E3%83%BC%E3%83%93%E3%82%B9%E3%81%AE%E3%83%9B%E3%83%BC%E3%83%A0%E3%83%AA%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%B3" aria-hidden="true"></a> グローバルサービスのホームリージョン</h3>
<p data-line="50" class="code-line">US-EAST-1は、AWSの歴史の中で最も古く、最大級のリージョンです。問題は、多くの<strong>グローバルコントロールプレーンサービスがこのリージョンを「ホームリージョン」としている</strong>点にあります。</p>
<p data-line="52" class="code-line">例えば、ユーザー認証を管理するIAM (Identity and Access Management) や、DNSサービスであるRoute 53などのコア機能は、最終的な設定情報の参照先や更新の起点がUS-EAST-1に集中しています。つまり、このリージョンで発生した障害が、他のリージョンで稼働するサービスにも連鎖的に影響を及ぼすアーキテクチャになっているのです。</p>
<p data-line="54" class="code-line">今回の障害では、US-EAST-1のDynamoDBエンドポイントへのDNS解決が失敗したことで、DynamoDBに依存する多数のAWSサービス（Lambda, API Gateway, ECSなど）が連鎖的に機能不全に陥りました。そして、これらのサービスに依存するグローバルなアプリケーションが、世界中で利用できなくなるという事態を招いたのです。</p>
<h3 id="%E6%8A%80%E8%A1%93%E7%9A%84%E8%B2%A0%E5%82%B5%E3%81%A8%E3%81%97%E3%81%A6%E3%81%AE%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3" data-line="56" class="code-line">
<a class="header-anchor-link" href="#%E6%8A%80%E8%A1%93%E7%9A%84%E8%B2%A0%E5%82%B5%E3%81%A8%E3%81%97%E3%81%A6%E3%81%AE%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3" aria-hidden="true"></a> 技術的負債としてのアーキテクチャ</h3>
<p data-line="58" class="code-line">このような構造は、AWSがサービスを開始した初期の設計思想に起因します。後発のMicrosoft AzureやGoogle Cloud Platform（GCP）が、より分散化されたアーキテクチャを採用しているのとは対照的です。</p>
<p data-line="60" class="code-line">AWSにとって、このUS-EAST-1への依存構造は、膨大な数の既存サービスとの互換性を維持しつつ、大規模なアーキテクチャ変更を行うことの困難さを示す、一種の <strong>「技術的負債」</strong> と言えるでしょう。</p>
<h2 id="%E5%85%AC%E5%BC%8F%E7%99%BA%E8%A1%A8%E3%81%A8%E7%8F%BE%E7%8A%B6" data-line="62" class="code-line">
<a class="header-anchor-link" href="#%E5%85%AC%E5%BC%8F%E7%99%BA%E8%A1%A8%E3%81%A8%E7%8F%BE%E7%8A%B6" aria-hidden="true"></a> 公式発表と現状</h2>
<p data-line="64" class="code-line">障害発生後、AWSは迅速に原因究明にあたり、「根本的な問題は完全に緩和された」と発表しました。多くのサービスは正常に稼働を再開しましたが、一部ではリクエストの遅延（スロットリング）が残り、完全復旧に向けた作業が続けられました。</p>
<h2 id="%E3%81%BE%E3%81%A8%E3%82%81%EF%BC%9A%E3%82%AF%E3%83%A9%E3%82%A6%E3%83%89%E3%81%AE%E8%84%86%E5%BC%B1%E6%80%A7%E3%81%A8%E4%BB%8A%E5%BE%8C%E3%81%AE%E8%AA%B2%E9%A1%8C" data-line="66" class="code-line">
<a class="header-anchor-link" href="#%E3%81%BE%E3%81%A8%E3%82%81%EF%BC%9A%E3%82%AF%E3%83%A9%E3%82%A6%E3%83%89%E3%81%AE%E8%84%86%E5%BC%B1%E6%80%A7%E3%81%A8%E4%BB%8A%E5%BE%8C%E3%81%AE%E8%AA%B2%E9%A1%8C" aria-hidden="true"></a> まとめ：クラウドの脆弱性と今後の課題</h2>
<p data-line="68" class="code-line">今回のAWS大規模障害は、クラウドアーキテクチャの利便性の裏に潜む脆弱性を白日の下に晒しました。US-EAST-1でのDNS解決異常という「ハチの一刺し」が、グローバルコントロールプレーンへの依存という構造的な急所に作用し、まるでアナフィラキシーショックのように広範なサービスを機能不全に陥らせたのです。</p>
<p data-line="70" class="code-line">このインシデントは、クラウドプロバイダーごとに抱えるリスクの性質が異なることも示唆しています。AWSの障害が「地理的な集中」という技術的負債に起因する一方、Azureのような後発クラウドでは、過去にグローバル認証システムのバグといった「論理的な集中」が大規模障害を招いています。</p>
<p data-line="72" class="code-line">私たち利用者側も、こうしたインシデントを教訓に、マルチリージョンやマルチクラウドといった、より回復力の高いアーキテクチャの検討が、今後のサービス継続性を担保する上で重要な課題となるでしょう。そしてAWS自身も、この技術的負債とどう向き合い、将来のアーキテクチャをどう進化させていくのか、その動向が注目されます。</p>


AWS障害はなぜグローバルに拡大したか？ US-EAST-1の「単一障害点」構造を徹底分析

はじめに：AWSを揺るがした大規模障害

キャッシュが隠した障害の連鎖と二次災害

障害のタイムラインと影響範囲

グローバルサービスのホームリージョン

技術的負債としてのアーキテクチャ

原因分析：US-EAST-1とDynamoDBの「単一障害点」

まとめ：クラウドの脆弱性と今後の課題

Discussion