AWSの大規模障害はDynamoDBのDNS競合が引き金 詳細な技術報告を公開セキュリティニュースアラート

AWSは2025年10月19日に発生した大規模障害について、DynamoDBのDNS管理システム内の競合状態に原因があったと報告した。同社は背景を説明し、再発防止のため自動化機構の改修と耐障害性強化策を講じる方針を示している。

» 2025年10月28日 08時00分 公開
[後藤大地ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 Amazon Web Services(AWS)は2025年10月23日(現地時間、以下同)、同年10月19〜20日にかけて発生したサービス障害の詳細な技術報告を公開した。今回の障害は、「Amazon DynamoDB」(以下、DynamoDB)のリージョナルDNS管理システムに存在した潜在的な不具合が引き金となり、DNS解決の失敗が連鎖的に複数のAWSサービスへ影響を及ぼしている。Amazon.comや関連子会社の一部業務も同期間に影響を受けている。

AWS障害の原因はDNS競合 DynamoDB障害が全サービスに波及

 報告によると、障害は太平洋夏時間(PDT)の2025年10月19日午後11時48分に発生し、DynamoDBのAPIエラー率が上昇した。問題の原因は、DynamoDBのDNS管理システム内に潜んでいた競合状態(レースコンディション)により、地域エンドポイント「dynamodb.us-east-1.amazonaws.com」に対し空のDNSレコードが誤って適用されていることにあった。この誤った計画がRoute53で上書きされ、直後に削除される過程で、該当エンドポイントのIP情報が全て消失した結果、サービス全体が接続不能となった。システムは自己修復できない不整合状態に陥り、最終的に手動による介入が必要になったという。

 DynamoDBはAWSの多数の主要サービスが依存する分散データベースであり、そのDNS自動管理は大規模かつ複雑な構造を持つ。報告書において、この自動化システムが耐障害性を重視して設計されていたものの、複数の独立したDNSエンフォーサーが並行動作する中でまれなタイミング競合が生じ、結果的に誤った計画が適用される事態を防げなかったと説明している。

 障害発生後、AWSのエンジニアは2025年10月20日午前0時38分までにDynamoDBのDNS異常を特定し、午前1時15分までに内部ツールを復旧。午前2時25分にDNS情報が完全に回復し、午前2時32分には接続が正常化した。DynamoDBの解決後、依存サービスの「Amazon EC2」(以下、EC2)、「AWS Lambda」(以下、Lambda)、「Network Load Balancer」(以下、NLB)などの一部で引き続き障害が発生していたことが報告されている。

 EC2において、インスタンス起動管理を担う「DropletWorkflow Manager」(DWFM)がDynamoDB依存の状態確認処理に失敗したため、新規インスタンス起動が停止。復旧後もDWFMが大量の管理対象を一斉に処理しきれず、過負荷状態に陥ったことから、一部のAPIリクエストで「insufficient capacity」や「request limit exceeded」エラーが発生した。エンジニアチームは午前4時14分に一部処理を制限し、DWFMホストの段階的再起動によって回復を図った。午前5時28分にはリース再確立が進み、新規起動が順次成功する状態に戻っている。

 同時に、ネットワーク設定の伝ぱを担当する「Network Manager」が、積み残されている設定変更処理の大量発生により遅延を引き起こした。この影響で新規EC2インスタンスの一部はネットワーク接続を確立できなかったが、午前10時36分に正常な伝ぱ速度を取り戻している。APIコールと新規EC2インスタンス起動リクエストが安定してきたため、午前11時23分にリクエストスロットルの緩和を開始し、午後1時50分には、全てのAPIと新規EC2インスタンスの起動が正常に動作している。

 NLBにも影響が広がり、2025年10月20日午前5時30分〜午後2時9分にかけて接続エラーが増加した。これは、ネットワーク状態が未反映のEC2インスタンスを対象に健康チェックが誤って失敗と判断され、正常なノードが一時的に除外されていることによるものとしている。エンジニアは午前9時36分に自動フェイルオーバーを一時停止し、全ノードを復旧させている。またEC2の回復後に午後2時9分に同機能を再有効化している。

 Lambdaや「Amazon ECS」「Amazon EKS」「AWS Fargate」などのサービスでも一時的なAPIエラーや遅延が発生した。特にLambdaにおいて、DynamoDB障害によるSQS・Kinesis連携の停止、EC2遅延の影響によるスケール不足が発生したが、順次処理を再開し、午後2時15分には通常運用へ戻ったとしている。

 AWSは今回の障害を受け、DynamoDBのDNS管理システムの自動化機能を全リージョンで一時的に停止した。再稼働に先立ち、競合状態を修正し、誤ったDNS計画が適用されることを防ぐ保護措置を追加する方針を示している。EC2については、DWFMの回復手順を自動試験に含める新しいテストスイートを構築し、負荷が高い状況でも安定して動作するよう改良する。NLBにおいて、異常時に単一ロードバランサーが過剰な容量を切り離さないよう制御機構を追加するとしている。

 AWSは声明で「同障害によって影響を受けた顧客に深く謝意を表する」とし、可用性向上への取り組みを継続すると述べ、同様の事象を防ぐための復旧プロセスと監視機構の強化を推進する構えを示している。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

注目のテーマ

あなたにおすすめの記事PR