Cloudflare、ログ送信が停止した大規模インシデントの詳細を解説 再発防止策は?:セキュリティニュースアラート
Cloudflareは2024年11月14日に発生した大規模インシデントの詳細を公表した。ログ送信システムの構成ミスが原因で顧客へのログ送信が停止したことが明らかにされている。同社は再発防止策についても解説している。
Cloudflareは2024年11月26日(現地時間、以下同)、同年11月14日に発生した多くの顧客に影響を与えたインシデントの詳細を発表した。このインシデントによって、顧客に送信しているログの約55%が送信されずに失われたことが明らかになっている。
Cloudflareは日々約4.5兆件のイベントログを顧客に送信しており、これらのログはコンプライアンスや可観測性、アカウンティングなどの目的で利用されている。この規模のログ配信では信頼性やフォールトトレラント性の維持に加え、システム全体の冗長性確保や障害発生時の復旧対応に特有の課題が生じる。
Cloudflareは2024年11月14日、高速ログ配信機能「Logpush」の新たなデータセットをサポートするための変更を加えたが、これに関連する構成ミスが原因でインシデントが発生した。具体的にはログを送信するシステム「Logfwdr」が空の構成を受け取るバグが発生し、顧客へのログ送信が停止した。チームは迅速に変更を元に戻したが、その間に別の障害が発生したとされている。
ログ送信システムの構成ミスが引き起こした大規模障害 再発防止策を解説
Logfwdrの一時的な設定ミスにより、別の内部システムである「Buftee」にも負荷が集中し、ログの送信が停止した。Bufteeは通常、顧客ごとにログをバッファリングする役割を果たすが、短時間に40倍のバッファー増加が生じ、過負荷障害が発生してしまった。その結果システム全体が正常に動作しなくなり、復旧と修復に数時間を要したことが報告されている。
Cloudflareは問題の根幹としてLogfwdrの構成ミスに加え、Bufteeのフェイルセーフ機能が正常に動作しなかったことを挙げている。Bufteeには過負荷を防ぐ仕組みが組み込まれていたが、適切に構成されていなかったためにその役割を果たせなかったとしている。
Cloudflareは今回のインシデントの発生を重く受け止め、同様の構成ミスを検知するためのアラート機能の追加やインシデントを引き起こしたバグの修正と関連テストの強化、大規模な負荷や連鎖反応をシミュレーションする「オーバーロードテスト」を定期的に実施するなどの再発防止策を講じると発表している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
クレジットカードを少額で不正利用されていない? 巧妙な新手口を解説
サイバー攻撃は個人にとっても無関係ではありません。特にフィッシング攻撃の進化は著しく、新しい手法が日々確認されています。今回は筆者が気になる最新のフィッシング手法を紹介しましょう。
FortiClient VPNサーバに見つかった“ヤバい問題” Fortinetは脆弱性と認めず
FortiClient VPNサーバから認証成功ログを記録しない問題が発見された。この欠陥はFortinetに報告されたが脆弱性として認められていない。この問題を悪用されるとどのようなリスクが生じるのか。
セキュリティ運用は手綱を握れ リクルートSOCリーダーが語るマネージドサービスの本質
セキュリティ人材が不足する昨今、マネージドサービスをいかにうまく活用して負担を低減させるかがセキュリティ組織の重要なテーマだ。リクルートのSOCリーダーが任せる業務/自組織でやるべき業務の基準を語った。
人気のファイルアーカイバー「7-Zip」に任意コード実行の脆弱性 直ちに更新を
7-Zipに脆弱性「CVE-2024-11477」が発表された。この脆弱性はリモートからの任意のコード実行を可能にするため、ユーザーは迅速なアップデートが推奨されている。