AWS、19日からの大規模障害について謝罪し、再発防止策を発表
AWSは、19日からの大規模障害について謝罪と概要を公開した。障害の引き金となったDynamoDBのDNS PlannerおよびDNS Enactorの自動化システムを全世界で無効化し、NLBやEC2の制御を改善する対策を発表した。
米Amazon傘下のAmazon Web Services(AWS)は10月22日(米太平洋時間)、19日から20日にわたって続いた大規模障害の概要と対策をまとめ、謝罪するWebページを公開した。
この障害は、主にN. Virginia(us-east-1)リージョンで発生し、「Amazon DynamoDB Service Disruption in Northern Virginia(US-EAST-1) Region」として報告された。影響は10月19日午後11時48分に始まり、主要な回復は10月20日午後2時20分に完了したが、顧客のアプリにはさらに長い影響があった。
この一連の障害の根本的な原因は、DynamoDBの自動DNS管理システム内に潜んでいた潜在的な競合状態だった。この競合状態の結果、システムの自動化が修復に失敗したにもかかわらず、サービスのリージョンエンドポイントに対して誤った空のDNSレコードが適用され、DynamoDBへの接続が不可能となった。
これにより、顧客のトラフィックだけでなく、DynamoDBに依存するAWS内部サービスのトラフィックもDNS障害に見舞われ、その後のEC2インスタンスの起動失敗や、Network Load Balancer(NLB)のヘルスチェックエラーなど、広範な影響につながった。
AWSは、再発防止と回復時間短縮のために複数の変更を実施している。
まず、障害の引き金となったDynamoDBのDNS PlannerおよびDNS Enactorの自動化システムを全世界で無効化した。この自動化システムを再度有効化する前に、競合状態のシナリオを修正し、不正確なDNSプランの適用を防ぐための追加の保護策を導入する予定だ。
NLBについては、ヘルスチェックの失敗が原因でAZフェイルオーバーが発生した場合に、単一のNLBが削除できるキャパシティを制限するための速度制御メカニズムを追加する。
Amazon EC2に関しては、DWFM(DropletWorkflow Manager)の回復ワークフローを検証するための追加のテストスイートを構築し、既存のスケールテストを補強する。また、EC2データ伝播システムにおけるスロットリングメカニズムを改善し、待機キューのサイズに基づいて着信作業をレート制限することで、高負荷時のサービス保護を強化する。
AWSは、今後もすべてのAWSサービスにわたるこの事象の詳細な調査を継続し、将来的に同様の事象による影響を回避し、回復時間をさらに短縮するための追加の方法を探求していくとしている。
最後に「この事象がお客様に与えた影響について、深くお詫び申し上げます」と謝罪した。「この事象が非常に多くのお客様に多大な影響を及ぼしたことを認識しています。当社は、この事象から学び、可用性をさらに向上させるために、できる限りのことを尽くしてまいります」
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
AWSが完全復旧 障害発生のきっかけは?
米AWSは10月21日午前7時53分(日本時間、以下同)、20日午後3時ごろに発生したクラウドサービス「Amazon Web Services」米国東部リージョン(US-EAST-1)の障害が解決したと発表した。後日、障害に関する詳細なレポートを公開する予定。
AWS障害、原因特定も日本時間の21日午前6時時点では完全復旧に至らず
AWSで10月20日に発生した大規模障害について、同社は日本時間の21日未明、原因を「ネットワークロードバランサーの健全性監視サブシステム」と特定したと発表した。復旧のためEC2の起動を制限しており、21日午前5時50分(日本時間)時点でも完全復旧には至っていない。
AWSで障害 米国東部リージョンで20サービスが停止・遅延 Zoomや任天堂のサービスなどに影響か
クラウドサービス「Amazon Web Services」の米国東部リージョン(US-EAST-1)で、10月20日午後5時ごろ(日本時間)から障害が発生している。データベースサービス「Amazon DynamoDB」が停止している他、監視ツール「Amazon CloudWatch」など20のサービスでエラー率やレイテンシが増加しているという。
AWSの大規模障害、原因はネットワークデバイス 新プロトコル処理に潜在的なバグ
9月2日に発生した、AWSの東京リージョンで大規模な障害で、同社が報告書を公開した。Direct Connectが接続される場所から東京リージョンのデータセンターへの途中にあるネットワークデバイスで障害が起きていたという。
