Google CloudやYouTubeの障害は「数台のサーバへの設定変更のつもりが、誤って複数リージョンの多数のサーバに適用されてしまった」 Googleが説明
日本時間の6月3日午前3時45分〜午前7時40分、Googleの米国内ネットワークで障害が発生。Google CloudのCompute EngineやCloud Storage、YouTubeの動作が遅くなったり利用できなかったりした。これについて、Googleの担当者がGoogle Cloudのブログ記事を投稿。サーバの設定変更のミスであったと明らかにした。
この記事は新野淳一氏のブログ「Publickey」に掲載された「[Google CloudやYouTubeの障害は「数台のサーバへの設定変更のつもりが、誤って複数リージョンの多数のサーバに適用されてしまった」。Googleが説明」(2019年6月6日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。
6月2日午前11時45分〜午後3時40分(米国太平洋時間)までの約4時間、Googleの米国内ネットワークで障害が発生し、Google CloudのCompute EngineやCloud Storage、さらにYouTubeやG Suiteなどもその影響を受けて動作が遅くなったり利用できなくなったりしました。
幸いなことに、障害の状況および時間帯の関係で日本のユーザーへの影響はそれほど大きなものではありませんでしたが、Googleの24x7担当VPであるBenjamin Treynor Sloss氏がGoogle Cloudのブログに記事「An update on Sunday’s service disruption」を投稿。今回の障害について説明を行っています。
ネットワークの輻輳そのものが復旧作業を長引かせた
報告によると、障害の根本的な原因は、サーバの設定操作を誤った結果、想定よりも広範囲のサーバに間違った設定が行われてしまったことだと説明されています。
In essence, the root cause of Sunday’s disruption was a configuration change that was intended for a small number of servers in a single region. The configuration was incorrectly applied to a larger number of servers across several neighboring regions, and it caused those regions to stop using more than half of their available network capacity.
日曜日に発生した障害の原因の根本は、単一リージョン内の数台のサーバに対する設定変更を意図した操作でした。この設定変更が、隣接する複数のリージョンの多数のサーバに対して適用されてしまったことで、これらのリージョンのネットワーク帯域の半分以上を埋めてしまったことにあります。
間違ったサーバ設定が拡散された結果、ネットワークが輻輳を起こし、それが障害の原因になったわけです。ただしなぜ隣接する複数のリージョンにまで拡散してしまったのかについては説明されていません。
そして障害の原因となったこのネットワークの輻輳は、その後の復旧作業をも困難にしていました。サーバの過負荷やネットワークの輻輳という障害の原因そのものが復旧作業も難しくするという状況は障害対応でよくあることではありますが、Googleであっても同じことになるのですね。
Once alerted, engineering teams quickly identified the cause of the network congestion, but the same network congestion which was creating service degradation also slowed the engineering teams’ ability to restore the correct configurations, prolonging the outage.
警告が出された後、エンジニアリングチームはネットワークの輻輳の原因を迅速に突き止めました。しかしサービス低下をもたらしているこのネットワークの輻輳自体が、エンジニアリングチームが正常な設定を行うための復旧作業そのものを長引かせたのです。
時間はかかったものの、最終的にエンジニアリングチームが障害を解消しました。
エンジニアリングチームは現在、今回発生したネットワーク帯域が失われた要因と復旧に時間がかかった要因などをあらためて分析しており、今後の対応に生かすとしています。
関連記事
- MicrosoftとOracle、クラウドの相互接続で合意 クロスクラウドのシングルサインオン、AzureからOracle Cloud Databaseへ接続など可能に
MicrosoftとOracleが、Microsoft AzureとOracle Cloudの相互接続で合意。クラウド市場で先行するAWS(Amazon Web Services)との距離を詰めるため、両社の強みを組み合わせた提携といえそうだ。 - オラクル、「Java有償化という誤解」を解き、未来を語る
日本オラクルのイベント「Oracle Code Tokyo 2019」で同社はJavaの未来を語り、有償化という誤解を解いた。 - 日本IBM・山口新社長が抱負語る 「今はまだ通過点。日本社会のデジタル変革をもっと加速させる」
日本IBMの山口明夫新社長が会見を開催。体制のビジョンと注力分野を説明した。今後は「あらゆる枠を超える」をビジョンに掲げ、ITソリューションの展開や、外部との共同研究を推進。社会全体のデジタル変革を目指すという。 - 大規模セールでアクセス殺到でも“落ちない”サイトに――ZOZOTOWNのクラウドサーバ活用術
システムの大部分をオンプレミスで運用してきたZOZOTOWN。毎秒数万リクエストを処理し、サイトが落ちないようにするには限界を迎えていた。そこで「コンテナ」を活用しリプレースを進めている。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.