Cloudflare、ログ送信が停止した大規模インシデントの詳細を解説 再発防止策は?セキュリティニュースアラート

Cloudflareは2024年11月14日に発生した大規模インシデントの詳細を公表した。ログ送信システムの構成ミスが原因で顧客へのログ送信が停止したことが明らかにされている。同社は再発防止策についても解説している。

» 2024年11月30日 08時00分 公開
[後藤大地有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 Cloudflareは2024年11月26日(現地時間、以下同)、同年11月14日に発生した多くの顧客に影響を与えたインシデントの詳細を発表した。このインシデントによって、顧客に送信しているログの約55%が送信されずに失われたことが明らかになっている。

 Cloudflareは日々約4.5兆件のイベントログを顧客に送信しており、これらのログはコンプライアンスや可観測性、アカウンティングなどの目的で利用されている。この規模のログ配信では信頼性やフォールトトレラント性の維持に加え、システム全体の冗長性確保や障害発生時の復旧対応に特有の課題が生じる。

 Cloudflareは2024年11月14日、高速ログ配信機能「Logpush」の新たなデータセットをサポートするための変更を加えたが、これに関連する構成ミスが原因でインシデントが発生した。具体的にはログを送信するシステム「Logfwdr」が空の構成を受け取るバグが発生し、顧客へのログ送信が停止した。チームは迅速に変更を元に戻したが、その間に別の障害が発生したとされている。

ログ送信システムの構成ミスが引き起こした大規模障害 再発防止策を解説

 Logfwdrの一時的な設定ミスにより、別の内部システムである「Buftee」にも負荷が集中し、ログの送信が停止した。Bufteeは通常、顧客ごとにログをバッファリングする役割を果たすが、短時間に40倍のバッファー増加が生じ、過負荷障害が発生してしまった。その結果システム全体が正常に動作しなくなり、復旧と修復に数時間を要したことが報告されている。

 Cloudflareは問題の根幹としてLogfwdrの構成ミスに加え、Bufteeのフェイルセーフ機能が正常に動作しなかったことを挙げている。Bufteeには過負荷を防ぐ仕組みが組み込まれていたが、適切に構成されていなかったためにその役割を果たせなかったとしている。

 Cloudflareは今回のインシデントの発生を重く受け止め、同様の構成ミスを検知するためのアラート機能の追加やインシデントを引き起こしたバグの修正と関連テストの強化、大規模な負荷や連鎖反応をシミュレーションする「オーバーロードテスト」を定期的に実施するなどの再発防止策を講じると発表している。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

注目のテーマ

あなたにおすすめの記事PR