Amazon、EC2の大規模障害について謝罪と説明　長期化の原因は複数のバグ

公開 2012年07月04日 12時30分

更新 2012年07月04日 12時29分

[ITmedia]

印刷する

　米Amazon Web Services（AWS）は7月2日（現地時間）、6月29日に発生したElastic Compute Cloud（EC2）など複数サービスにわたる大規模障害について正式に謝罪し、経緯を説明した。

　この障害は、米太平洋時間の6月29日午後8時過ぎに北バージニアにあるデータセンターで発生し、修復がほぼ終わったのは翌30日の午後7時ごろだった。この影響で、同サービスを利用しているInstagram、Pinterest、Netflix、Herokuをはじめとする多数の顧客のサービスが長時間にわたってダウンした。

　障害発生の最初の原因は、既報の通り同日に北バージニアを襲った激しい雷雨による停電だったが、復旧に時間がかかったのは、複数サービスに潜んでいた幾つかのバグのせいという。

　同日、暴風雨の警報に従って米東海岸リージョンでのすべてのアクティビティ変更は中止し、増員して待機した。午後7時24分に同地域の複数のデータセンターの変電装置に強い電圧ノイズがあったため、バックアップの発電装置に切り替えたが、ここでまず1つのデータセンターで問題が発生した。さらに、サーバの起動プロセスが未知の問題によりボトルネックになり、EBSボリュームの復旧が大幅に遅れた。こうした問題は、「Elastic Load Balancer（ELB）」で発生した未知のバグによるものという。ELBは、複数のEC2インスタンスにトラフィックを自動的に分散する、AWSサービスの耐障害性を担う機能だ。また、幾つかのRDSインスタンスもソフトウェアのバグにより、フェイルオーバーに失敗した。

　AWSは説明の最後に障害について謝罪し、数週間をかけて原因のさらなる究明と改善に努めると語った。

印刷する