米Amazon傘下のAmazon Web Services(AWS)は10月22日(米太平洋時間)、19日から20日にわたって続いた大規模障害の概要と対策をまとめ、謝罪するWebページを公開した。
この障害は、主にN. Virginia(us-east-1)リージョンで発生し、「Amazon DynamoDB Service Disruption in Northern Virginia(US-EAST-1) Region」として報告された。影響は10月19日午後11時48分に始まり、主要な回復は10月20日午後2時20分に完了したが、顧客のアプリにはさらに長い影響があった。
この一連の障害の根本的な原因は、DynamoDBの自動DNS管理システム内に潜んでいた潜在的な競合状態だった。この競合状態の結果、システムの自動化が修復に失敗したにもかかわらず、サービスのリージョンエンドポイントに対して誤った空のDNSレコードが適用され、DynamoDBへの接続が不可能となった。
これにより、顧客のトラフィックだけでなく、DynamoDBに依存するAWS内部サービスのトラフィックもDNS障害に見舞われ、その後のEC2インスタンスの起動失敗や、Network Load Balancer(NLB)のヘルスチェックエラーなど、広範な影響につながった。
AWSは、再発防止と回復時間短縮のために複数の変更を実施している。
まず、障害の引き金となったDynamoDBのDNS PlannerおよびDNS Enactorの自動化システムを全世界で無効化した。この自動化システムを再度有効化する前に、競合状態のシナリオを修正し、不正確なDNSプランの適用を防ぐための追加の保護策を導入する予定だ。
NLBについては、ヘルスチェックの失敗が原因でAZフェイルオーバーが発生した場合に、単一のNLBが削除できるキャパシティを制限するための速度制御メカニズムを追加する。
Amazon EC2に関しては、DWFM(DropletWorkflow Manager)の回復ワークフローを検証するための追加のテストスイートを構築し、既存のスケールテストを補強する。また、EC2データ伝播システムにおけるスロットリングメカニズムを改善し、待機キューのサイズに基づいて着信作業をレート制限することで、高負荷時のサービス保護を強化する。
AWSは、今後もすべてのAWSサービスにわたるこの事象の詳細な調査を継続し、将来的に同様の事象による影響を回避し、回復時間をさらに短縮するための追加の方法を探求していくとしている。
最後に「この事象がお客様に与えた影響について、深くお詫び申し上げます」と謝罪した。「この事象が非常に多くのお客様に多大な影響を及ぼしたことを認識しています。当社は、この事象から学び、可用性をさらに向上させるために、できる限りのことを尽くしてまいります」
AWSが完全復旧 障害発生のきっかけは?
AWS障害、原因特定も日本時間の21日午前6時時点では完全復旧に至らず
AWSで障害 米国東部リージョンで20サービスが停止・遅延 Zoomや任天堂のサービスなどに影響か
AWSの大規模障害、原因はネットワークデバイス 新プロトコル処理に潜在的なバグCopyright © ITmedia, Inc. All Rights Reserved.
Special
PR