米Amazon Web Services(AWS)は7月2日(現地時間)、6月29日に発生したElastic Compute Cloud(EC2)など複数サービスにわたる大規模障害について正式に謝罪し、経緯を説明した。
この障害は、米太平洋時間の6月29日午後8時過ぎに北バージニアにあるデータセンターで発生し、修復がほぼ終わったのは翌30日の午後7時ごろだった。この影響で、同サービスを利用しているInstagram、Pinterest、Netflix、Herokuをはじめとする多数の顧客のサービスが長時間にわたってダウンした。
障害発生の最初の原因は、既報の通り同日に北バージニアを襲った激しい雷雨による停電だったが、復旧に時間がかかったのは、複数サービスに潜んでいた幾つかのバグのせいという。
同日、暴風雨の警報に従って米東海岸リージョンでのすべてのアクティビティ変更は中止し、増員して待機した。午後7時24分に同地域の複数のデータセンターの変電装置に強い電圧ノイズがあったため、バックアップの発電装置に切り替えたが、ここでまず1つのデータセンターで問題が発生した。さらに、サーバの起動プロセスが未知の問題によりボトルネックになり、EBSボリュームの復旧が大幅に遅れた。こうした問題は、「Elastic Load Balancer(ELB)」で発生した未知のバグによるものという。ELBは、複数のEC2インスタンスにトラフィックを自動的に分散する、AWSサービスの耐障害性を担う機能だ。また、幾つかのRDSインスタンスもソフトウェアのバグにより、フェイルオーバーに失敗した。
AWSは説明の最後に障害について謝罪し、数週間をかけて原因のさらなる究明と改善に努めると語った。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR