Cloudflareで起きた約40時間の障害、原因はデータセンター事業者の不手際?(1/2 ページ)
11月2日午前11時43分(現地時間、以下同)から4日午前4時25分ごろまでの約40時間にわたり、米Cloudflareのサービスで障害が発生。同社は障害の解決後、状況の詳細を4日中に公開した。
11月2日午前11時43分(現地時間、以下同)から4日午前4時25分ごろまでの約40時間にわたり、米Cloudflareのサービスで障害が発生した。パケットの転送制御やデータ分析システムに問題が起き、セキュリティに関するサービスやログの取得機能、各種APIが利用できなくなったり、使いにくくなったりしたという。同社は障害の解決後、状況の詳細を4日中に公開した。
障害の原因はデータセンターにおける電力供給の問題と説明。Cloudflareによれば、同社のパケット転送制御機能などは米オレゴン州にある3つのデータセンターのサーバで実行していたという。各データセンターは互いに独立しており、冗長化したネットワークや複数の商用電源といった障害対策も備えていた。
電力供給に問題があったデータセンターは、このうちの一つ「PDX-DC04」だ。Cloudflareによれば2日午前8時50分ごろ、PDX-DC04に電力を供給する企業が計画外のメンテナンスを実施。1つの商用電源への電力供給が断たれた。通常、同様の事態が発生したときは、データセンターにある他の商用電源を使う計画だった。
しかし、PDX-DC04を管理する米Flexentialは不足した電力を補うために商用電源は使わず、代わりに自社の発電機を起動したという。さらに同社は発電機の起動をCloudflareに通知すべきところ、それをしなかった。これにより、Cloudflareは電源の変化を検知できなかったという。
結局、Cloudflareがデータセンターのトラブルを知ったのは、障害が起きる直前の午前11時24分。施設内にある2つのルーターがオフラインになったときだった。Flexentialから最初に通知があったのはそれから約1時間後の午後12時28分だったとしている。CloudflareはFlexentialが自社の発電機を利用した理由や経緯について「明確な答えが得られていない」と主張している。
一方で、Cloudflare自身のミスも問題の一因になっていたという。同社は今回のような事態に備え、他のデータセンターでサービスを引き継ぐ仕組みも構築しており、基本的には計画通りに動作したとしている。しかし、一部のサービスは計画に反してPDX-DC04に依存する形で動作していた。
Cloudflareは原因について「我々は、他の2つのデータセンター施設のそれぞれ、および両方を完全にオフラインにしてパフォーマンステストを実行した。同じく、PDX-DC04をオフラインにするテストも行った。ただし、PDX-DC04の施設全体をオフラインにして完全にテストしたことはなかった。結果、依存関係の重要性を見逃していた」としている。
関連記事
- CloudflareのCDNがダウン、世界中のサイトに影響 原因はソフトウェアの動作不良
Cloudflareが提供するCDNサービスが、7月2日午後11時50分ごろ(日本時間)から約30分間にわたり全面的にダウン。CloudflareをCDNとして利用している世界中のWebサービスやアプリケーションが使えなくなった。 - Cloudflareの障害、原因はBGPの設定ミス 東京を含む19の主要データセンターが一時オフラインに
CDNプロバイダーの米Cloudflareは、2022年6月21日(日本時間)に発生したネットワーク障害について、原因を発表した。BGP(Border Gateway Protocol)の設定ミスが原因で、東京を含む同社の主要な19のデータセンターで障害が発生したという。 - トヨタ工場停止の原因は「ディスクの容量不足」 同一システム利用で、バックアップも作動せず
8月末に国内14工場の稼働が停止した件について、トヨタ自動車は原因は作業用ディスクの容量不足だったと発表した。トヨタは「サイバー攻撃によるシステムの不具合ではない」と強調した上で、関係各所に対して謝罪した。 - NTT東西の「フレッツ光」大規模障害、原因は特定のサーバから届いた“特殊なパケット”だった
3日午前中に発生した「フレッツ光」と「ひかり電話」の障害ではNTT東日本、NTT西日本を合わせて最大約44万6000件に影響が出た。原因は新しい加入者装置に特殊なパケットが届いたことだった。 - Microsoft、AzureやMicrosoft 365などで起きた大規模障害の原因報告 WAN内の全ルータが再計算状態に突入し、パケット転送が不可に
Microsoftが、1月25日午後に発生した世界規模の障害についての報告書を公開した。同社のワイドエリアネットワークに対して行われた設定変更が原因という。
Copyright © ITmedia, Inc. All Rights Reserved.