ITmedia NEWS > セキュリティ >
セキュリティ・ホットトピックス

Cloudflareで起きた約40時間の障害、原因はデータセンター事業者の不手際?(2/2 ページ)

» 2023年11月07日 12時11分 公開
[ITmedia]
前のページへ 1|2       

復旧に時間要した原因は Cloudflareの推測

 Cloudflareは「公式な確認は得られておらず、Flexentialの従業員から受けた非公式な共有に基づく推測」と前置きの上で、復旧が遅れた背景も説明している。電源の復旧を妨げた要因は3つ。

 (1)故障により本来流れるべきでない箇所に電気が流れており、回路が遮断されたため、手動で復旧する必要があった、(2)Flexentialのアクセスコントロールシステムもオフラインになっていた、(3)当時現場には警備員と勤務開始から1週間程度の技術者しかおらず、電気設備のエキスパートが不在だった──ことから、すぐに電源を復旧できなかったという。

 結局、Flexentialが発電機を再起動したのは2日午後12時28分。しかし施設内のブレーカーが故障しており、予備の部品も足りなかったため、Cloudflareは欧州にある災害リカバリー用の拠点でサービスを提供することに。

 リカバリー用の拠点を使ったサービス提供は午後1時40分から開始できたが、これまでの障害によって失敗していた大量のAPIコールが発生。リクエストを制御するためにレート制限を設けざるを得なかった。また、災害復旧サイトで新製品など一部サービスを提供する体制がまだ整っておらず、改めて実装する手間がかかったという。

 その後、休憩などを交えつつPDX-DC04の復旧に当たり、4日午前4時25分ごろまでに問題を修正したという。Cloudflareは「一般に提供するすべての製品と機能には、テスト済みの信頼できる災害復旧計画が必要」「主要なデータセンターの徹底的な監査と、それらが当社の基準に準拠していることを確認できる再監査計画が必要」など、複数の反省点があったとし、今後より厳密なテストによって再発を防ぐ方針を示している。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.