Cloudflareで起きた約40時間の障害、原因はデータセンター事業者の不手際?(2/2 ページ)
11月2日午前11時43分(現地時間、以下同)から4日午前4時25分ごろまでの約40時間にわたり、米Cloudflareのサービスで障害が発生。同社は障害の解決後、状況の詳細を4日中に公開した。
復旧に時間要した原因は Cloudflareの推測
Cloudflareは「公式な確認は得られておらず、Flexentialの従業員から受けた非公式な共有に基づく推測」と前置きの上で、復旧が遅れた背景も説明している。電源の復旧を妨げた要因は3つ。
(1)故障により本来流れるべきでない箇所に電気が流れており、回路が遮断されたため、手動で復旧する必要があった、(2)Flexentialのアクセスコントロールシステムもオフラインになっていた、(3)当時現場には警備員と勤務開始から1週間程度の技術者しかおらず、電気設備のエキスパートが不在だった──ことから、すぐに電源を復旧できなかったという。
結局、Flexentialが発電機を再起動したのは2日午後12時28分。しかし施設内のブレーカーが故障しており、予備の部品も足りなかったため、Cloudflareは欧州にある災害リカバリー用の拠点でサービスを提供することに。
リカバリー用の拠点を使ったサービス提供は午後1時40分から開始できたが、これまでの障害によって失敗していた大量のAPIコールが発生。リクエストを制御するためにレート制限を設けざるを得なかった。また、災害復旧サイトで新製品など一部サービスを提供する体制がまだ整っておらず、改めて実装する手間がかかったという。
その後、休憩などを交えつつPDX-DC04の復旧に当たり、4日午前4時25分ごろまでに問題を修正したという。Cloudflareは「一般に提供するすべての製品と機能には、テスト済みの信頼できる災害復旧計画が必要」「主要なデータセンターの徹底的な監査と、それらが当社の基準に準拠していることを確認できる再監査計画が必要」など、複数の反省点があったとし、今後より厳密なテストによって再発を防ぐ方針を示している。
関連記事
- CloudflareのCDNがダウン、世界中のサイトに影響 原因はソフトウェアの動作不良
Cloudflareが提供するCDNサービスが、7月2日午後11時50分ごろ(日本時間)から約30分間にわたり全面的にダウン。CloudflareをCDNとして利用している世界中のWebサービスやアプリケーションが使えなくなった。 - Cloudflareの障害、原因はBGPの設定ミス 東京を含む19の主要データセンターが一時オフラインに
CDNプロバイダーの米Cloudflareは、2022年6月21日(日本時間)に発生したネットワーク障害について、原因を発表した。BGP(Border Gateway Protocol)の設定ミスが原因で、東京を含む同社の主要な19のデータセンターで障害が発生したという。 - トヨタ工場停止の原因は「ディスクの容量不足」 同一システム利用で、バックアップも作動せず
8月末に国内14工場の稼働が停止した件について、トヨタ自動車は原因は作業用ディスクの容量不足だったと発表した。トヨタは「サイバー攻撃によるシステムの不具合ではない」と強調した上で、関係各所に対して謝罪した。 - NTT東西の「フレッツ光」大規模障害、原因は特定のサーバから届いた“特殊なパケット”だった
3日午前中に発生した「フレッツ光」と「ひかり電話」の障害ではNTT東日本、NTT西日本を合わせて最大約44万6000件に影響が出た。原因は新しい加入者装置に特殊なパケットが届いたことだった。 - Microsoft、AzureやMicrosoft 365などで起きた大規模障害の原因報告 WAN内の全ルータが再計算状態に突入し、パケット転送が不可に
Microsoftが、1月25日午後に発生した世界規模の障害についての報告書を公開した。同社のワイドエリアネットワークに対して行われた設定変更が原因という。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.