ニュース
» 2018年07月26日 08時00分 公開

テスト時も導入時にも発見できず:Google Cloud Load Balancerの障害、原因は新機能に含まれていたバグだった (1/2)

Pokemon GoやSpotifyがダウンしたGoogle Cloudの障害。その原因について、Googleが経緯報告を公開しました。それによると、障害の原因はロードバランサーの新機能に含まれているバグだったようです。

[新野淳一,Publickey]

 この記事は、新野淳一氏のブログ「Publickey」の記事「Google Cloud Load Balancerの障害、原因は新機能に含まれていたバグ。テスト時も導入時にも発見できず」を許可を得た上で転載、編集しています。


 Google Cloudのロードバランサーが、2018年7月17日の午後0時17分(米国太平洋標準時夏時間。日本時間7月18日午前4時17分)から40分ほど障害を起こし、Pokemon GOやSpotifyなど、Google Cloud上で提供されている多くのサービスが影響を受けた件について、Googleは経緯や原因などの報告を公開しました

 この報告によると、障害の原因はロードバランサーに追加された新機能にバグがあったことだとされています。

photo

ロードバランサーがバックエンドと通信できなくなる

 前述の通り、障害が発生したのは7月17日の午後0時17分(米国太平洋標準時夏時間。日本時間では7月18日午前4時17分)。

 主な現象は、Google HTTP(S) Load BalancerがHTTPステータス502(不正なゲートウェイ)を返す、つまりロードバランサーがバックエンドのサービスと通信できない、というものでした。関連するサービスである「TCP/SSL Proxy Load Balancer」と「Google App Engine」でも障害が発生しました。

 ただし、全てのリクエストに対して502が返ったわけではなく、33%から87%という範囲での割合でこの現象が発生していたとのことです。

 502ステータスが返る障害は午後0時49分まで続き、この影響でキャッシュのヒット率が約70%低下。キャッシュヒットを含む全てが正常に戻ったのは午後0時55分でした。報告によると、Googleのエンジニアリングチームは、障害発生から2分後の午後0時19分にアラートを受けて対応を開始、午後0時44分に原因を究明して対策をデプロイしたとのことです。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

ピックアップコンテンツ

- PR -

注目のテーマ

マーケット解説

- PR -