オーバーヒートを止められなかった AWS、東京リージョン大規模障害の報告書を発表運用チームの対応も失敗

データセンターの冷却制御システムに存在するロジックのバグから障害が発生した。障害に備えたモードへの移行が一部で機能せず、AWSの運用チームによるスイッチオーバーも失敗、影響が拡大した。

» 2019年08月28日 13時12分 公開
[鈴木聖子ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 Amazon Web Services(以下、AWS)の東京リージョンで2019年8月23日に起きた大規模な障害について、AWSが詳細を公表した。原因は、データセンターの冷却制御システムの障害に起因する、サーバのオーバーヒートだったことを明らかにした。

2019年8月23日午後3時30ごろには、東京や大阪といった日本の都市以外に、香港や台北、ソウル、シンガポールなどでAWSの障害が発生していた。(出典:Ookla)

 AWSによると、日本時間の2019年8月23日12時36分、東京リージョンの単一のアベイラビリティゾーンで、オーバーヒートによって仮想サーバ「Amazon Elastic Compute Cloud(EC2)」の一部が停止し、EC2ブロックストレージボリューム(以下、EBSボリューム)のパフォーマンスが低下した。影響はEC2 RunInstances APIにも及んだ。

 冷却システムは同日の15時21分に復旧し、18時30分までには影響を受けたEC2インスタンスとEBSボリュームの大部分が回復した。

 一連の問題は、データセンターを冷却するシステムの制御と最適化に使われる、制御システムの障害に起因していた。制御システムは、サードパーティー製のコードを介してサードパーティー製のデバイス――ファンや冷却装置、温度センサーなど――と通信しているが、サードパーティー製コードのロジックに存在したバグにより、制御ホストの入れ替え作業中に制御システムとデータセンターのデバイス間で過度な情報交換が発生し、制御システムが応答しなくなった。

フェイルセーフ設計と冗長化はされていた、しかし……

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ