#87 「Falcon」による大規模のシステム障害について
はじめに
一ヶ月前、全世界規模のシステム障害が発生してしまい、交通、飲食、エンタテインメントなど多くのサービスが停止せざるを得ないことになっていた。一体何が発生したのと原因や影響を分析したいと思う。
問題があるアップデートによる大パニック
7月19日、CrowdStrike会社のセキュリティーソフト「Falcon」の自動更新と伴い、問題がある設定ファイルの追加でWindowsの不具合が発生し、全世界多くのサービスに影響を与えた。日本の新聞によると、USJや空港なども影響されてしまい、欠航などのサービスの一時停止になった。
原因は一体?
原因はサイバーアタックではないが、一つの設定ファイルで全世界にもパニックになったが、現在のOSは簡単に不具合が発生しないものです。例えばWindowsシステム、Microsoftから基本正式の更新を公表する前、内部テストから開発者テストなど、多重のテストを重ねて故障原因を最低限にしてから一般ユーザーに提供する。
そして、WindowsやLinuxなど、OSによっての保護制御があり、アプリケーションに不具合が発生してもシステム自体には影響及ばない。では今回の不具合は一体何が原因でしょうか?
「Falcon」の処理はアプリ層で行うではなく、カーネル処理としてOSにで作動しているようです。セキュリティーソフトとして、即時OSの動作をモニターニングするため、多くの権限が付与されていて、カーネルにで行動分析や観察処理を行う。その観察や保護用の設定ファイルの更新でロジックエラーが発生し、BSOD、所謂青画面の不具合が発生してしまう。
感想
今回の大規模不具合について、ほぼ回避不可能だと考えている。セキュリティーソフトは常に最新化しないと、新しいアタックに襲う可能性もあり、自動更新を止めることはいけない。そのためソフトのテストや質をより一層確認するのが必要と思う。第三方のソフト提供者は勿論、Microsoftみたいな国際企業として、しっかり事前に各ソフト提供者とコミュニケーションをとるべきです。さもなければ又同じような不具合が発生してしまい、今回のように全世界に影響を及ぼす。
エンジニアとして、いろんなものことから勉強し、改善すべきところを考えて、自分の技術向上のためにもなるでしょう。
最後
すでに1ヶ月過ぎて、まだ対応していないデバイスはいないと思うため、ここでは特に説明しないようにしておく。
不具合問題に気になる方がいれば、こちらCrowdStrike会社公式のポストを参照しましょう。こちら
Discussion