Google Cloud Load Balancerの障害、原因は新機能に含まれていたバグだったテスト時も導入時にも発見できず(1/2 ページ)

Pokemon GoやSpotifyがダウンしたGoogle Cloudの障害。その原因について、Googleが経緯報告を公開しました。それによると、障害の原因はロードバランサーの新機能に含まれているバグだったようです。

» 2018年07月26日 08時00分 公開
[新野淳一Publickey]

 この記事は、新野淳一氏のブログ「Publickey」の記事「Google Cloud Load Balancerの障害、原因は新機能に含まれていたバグ。テスト時も導入時にも発見できず」を許可を得た上で転載、編集しています。


 Google Cloudのロードバランサーが、2018年7月17日の午後0時17分(米国太平洋標準時夏時間。日本時間7月18日午前4時17分)から40分ほど障害を起こし、Pokemon GOやSpotifyなど、Google Cloud上で提供されている多くのサービスが影響を受けた件について、Googleは経緯や原因などの報告を公開しました

 この報告によると、障害の原因はロードバランサーに追加された新機能にバグがあったことだとされています。

photo

ロードバランサーがバックエンドと通信できなくなる

 前述の通り、障害が発生したのは7月17日の午後0時17分(米国太平洋標準時夏時間。日本時間では7月18日午前4時17分)。

 主な現象は、Google HTTP(S) Load BalancerがHTTPステータス502(不正なゲートウェイ)を返す、つまりロードバランサーがバックエンドのサービスと通信できない、というものでした。関連するサービスである「TCP/SSL Proxy Load Balancer」と「Google App Engine」でも障害が発生しました。

 ただし、全てのリクエストに対して502が返ったわけではなく、33%から87%という範囲での割合でこの現象が発生していたとのことです。

 502ステータスが返る障害は午後0時49分まで続き、この影響でキャッシュのヒット率が約70%低下。キャッシュヒットを含む全てが正常に戻ったのは午後0時55分でした。報告によると、Googleのエンジニアリングチームは、障害発生から2分後の午後0時19分にアラートを受けて対応を開始、午後0時44分に原因を究明して対策をデプロイしたとのことです。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ