ITmedia NEWS > セキュリティ >
セキュリティ・ホットトピックス

Cloudflareで起きた約40時間の障害、原因はデータセンター事業者の不手際?(1/2 ページ)

» 2023年11月07日 12時11分 公開
[ITmedia]

 11月2日午前11時43分(現地時間、以下同)から4日午前4時25分ごろまでの約40時間にわたり、米Cloudflareのサービスで障害が発生した。パケットの転送制御やデータ分析システムに問題が起き、セキュリティに関するサービスやログの取得機能、各種APIが利用できなくなったり、使いにくくなったりしたという。同社は障害の解決後、状況の詳細を4日中に公開した。

 障害の原因はデータセンターにおける電力供給の問題と説明。Cloudflareによれば、同社のパケット転送制御機能などは米オレゴン州にある3つのデータセンターのサーバで実行していたという。各データセンターは互いに独立しており、冗長化したネットワークや複数の商用電源といった障害対策も備えていた。

photo 電力供給のイメージ図

 電力供給に問題があったデータセンターは、このうちの一つ「PDX-DC04」だ。Cloudflareによれば2日午前8時50分ごろ、PDX-DC04に電力を供給する企業が計画外のメンテナンスを実施。1つの商用電源への電力供給が断たれた。通常、同様の事態が発生したときは、データセンターにある他の商用電源を使う計画だった。

 しかし、PDX-DC04を管理する米Flexentialは不足した電力を補うために商用電源は使わず、代わりに自社の発電機を起動したという。さらに同社は発電機の起動をCloudflareに通知すべきところ、それをしなかった。これにより、Cloudflareは電源の変化を検知できなかったという。

 結局、Cloudflareがデータセンターのトラブルを知ったのは、障害が起きる直前の午前11時24分。施設内にある2つのルーターがオフラインになったときだった。Flexentialから最初に通知があったのはそれから約1時間後の午後12時28分だったとしている。CloudflareはFlexentialが自社の発電機を利用した理由や経緯について「明確な答えが得られていない」と主張している。

 一方で、Cloudflare自身のミスも問題の一因になっていたという。同社は今回のような事態に備え、他のデータセンターでサービスを引き継ぐ仕組みも構築しており、基本的には計画通りに動作したとしている。しかし、一部のサービスは計画に反してPDX-DC04に依存する形で動作していた。

 Cloudflareは原因について「我々は、他の2つのデータセンター施設のそれぞれ、および両方を完全にオフラインにしてパフォーマンステストを実行した。同じく、PDX-DC04をオフラインにするテストも行った。ただし、PDX-DC04の施設全体をオフラインにして完全にテストしたことはなかった。結果、依存関係の重要性を見逃していた」としている。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.