Cloudflare、約25分間のネットワーク障害の原因を説明し謝罪
Cloudflareは、12月5日に発生した約25分間のネットワーク障害の原因を説明した。サイバー攻撃ではなく、WAFの解析ロジック変更が古いプロキシ内のバグを露呈させたためとしている。全HTTPトラフィックの約28%に影響した。CTOが謝罪し、単一変更の影響を抑えるためのレジリエンス向上策を優先的に進める方針を示した。
米Cloudflareは12月5日(現地時間)、同日に発生した自社ネットワーク障害の原因と影響範囲を説明するブログを公開した。障害は同日8時47分から9時12分まで(協定世界時。日本時間では17時47分から18時12分まで)発生し、約25分間にわたって同社ネットワークの一部がダウンした。影響を受けたのはCloudflareが処理する全HTTPトラフィックの約28%に相当するという。
今回の障害は自社システムに対するサイバー攻撃や悪意ある活動によるものではなく、「React Server Components」の新たな脆弱性への対応作業の一環として、Webアプリケーションファイアウォール(WAF)のボディ解析ロジックを変更したことが直接のきっかけであったと説明している。
この変更が、同社の古いプロキシで動作するルールモジュール内のバグを顕在化させ、一部の構成の顧客環境でHTTP 500エラーが返される状態になった。問題は構成変更をロールバックすることで9時12分に解消されたとしている。
同社は11月18日にも大規模な障害を発生させている。デーン・クネヒトCTO(最高技術責任者)は公式ブログで「再びインターネットの期待を裏切ってしまったことを自覚」していると述べ、「この度の事態がお客様、そしてインターネット全体に与えた影響とご迷惑に対し、心よりお詫び申し上げます」と謝罪した。
今後、単一の構成変更が全ネットワークに広範な影響を与えないよう、ロールアウトやロールバックの仕組み強化、「フェイルオープン」型のエラーハンドリングへの移行など、レジリエンス向上策を優先的に進めるとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
クラウドフレアでまた障害 APIで問題 Zoomやメルカリなどつながりにくく【追記あり】
12月5日午後6時ごろから、CDN(コンテンツ・デリバリー・ネットワーク)サービス「Cloudflare」で障害が発生している。ダッシュボードやAPIで問題が発生しているという。
Cloudflareの大規模障害、“迂回”が不正アクセスの引き金に? 「ネットワーク侵入テスト」になったとの指摘も
世界中の大手WebサイトやSNSをダウンさせた、CDN大手米Cloudflareの大規模障害。これに関連して、一部のWebサイトが防御が手薄になり、この間に不正侵入された恐れがある。専門家はログなどを確認するよう促している。
「2019年以来で最悪の障害」──クラウドフレアのCEOが原因と経緯を説明
米Cloudflareのマシュー・プリンスCEOは18日(現地時間)に発生した障害について経緯と原因を説明した。
ChatGPTやXを巻き込んだCloudflareの障害が解決 原因は「バグが引き起こしたクラッシュ」
Cloudflareは日本時間の19日午前4時過ぎ、数時間続いた障害が解決したと発表した。同社CTOは原因について、ボット対策機能の潜在的なバグが設定変更後にクラッシュを引き起こしたもので、サイバー攻撃ではないと説明した。
