Spotify、3月8日に起きた世界規模のログイン障害について原因を報告 Google Cloudの障害が影響
スウェーデンSpotifyが、3月8日に起きた2時間以上にわたる障害の原因を報告。Google Cloudの「Traffic Director」の障害が引き金だったという。
この記事は新野淳一氏のブログ「Publickey」に掲載された「Spotifyが全世界でログインできなくなった3月8日の障害について原因を報告。Google CloudのTraffic Directorの障害がgRPCライブラリのバグを踏んだと」(2022年3月16日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。
音楽配信サービスのSpotifyは先週、2022年3月8日の午後6時頃(日本時間9日午前3時頃)から2時間以上、ログインができなくなるなどの障害がグローバルに発生していました。午後8時半頃には障害が収束し、正常化しました。
スウェーデンSpotifyのエンジニアリングチームは、この障害の原因についての報告を、ブログの記事「Incident Report: Spotify Outage on March 8」として公開し、Google Cloudの「Traffic Director」の障害が引き金であったことなどを説明しています。
Google Cloud Traffic Directorの障害が引き金に
Spotifyのシステムはマイクロサービスでできており、サービス間でお互いを発見(Discovery)するために、多くはDNSベースのサービスディスカバリを利用していたものの、一部でEnvoyプロキシのxDS APIベースのGoogle Cloud Traffic Directorを採用していたとのこと。
そして3月8日にこのGoogle Cloudが提供するTraffic Directorに障害が発生。
これがgRPCを用いたクライアントライブラリのバグ、処理に失敗した際にチャネルにエラーを伝播していくというバグと組み合わさり、Spotifyのログイン処理に問題を引き起こしたと説明されました。
Spotifyのエンジニアチームはこの原因を発見し次第、障害が発生したシステムをDNSベースのサービスディスカバリへと設定変更し、正常な状態へと回復させました。
Spotifyは今後の対策として、今回の障害についてGoogle Cloudと協力して分析を行うとともに、障害発生をさらに早期に発見するための監視とアラート機能を強化するとのことです。
関連記事
- AWSで一時障害、原因はデータセンターの電力消失 SlackやTrelloにも影響か
AWSの北バージニアリージョンで、12月22日午後9時半(日本時間)ごろから障害が発生している。原因はデータセンターの電力消失。AWSの一部サービスでは23日午前10時半現在でも影響が続いている。 - GCPが一部サービスの料金を改定、値上げも値下げも 10月から
米Googleが、クラウドサービス「Google Cloud Platform」について、一部サービスの価格を10月1日に改定する。リージョンを跨ったデータの複製などが対象になるという。 - Firefoxの接続障害が復旧、公式が謝罪 原因はHTTP/3のバグ
1月13日午後5時ごろから発生していた、Webブラウザ「Firefox」のネットへの接続障害について、Firefoxの公式Twitterアカウントは13日午後10時6分に「再起動すれば正常に戻る」と復旧方法を投稿し「Firefoxで障害が発生し、申し訳ございませんでした」と謝罪した。 - Google Cloud純正のシステム構成図作成ツールが登場 作図通りのデプロイも可 無料
米Googleが、GCPのシステム構成図を作成できるWebサービス「Google Cloud Architecture DiagrammingTool」の提供を始めた。利用料は無料。 - 前澤氏の“お金配り”、アプリ化したらアクセス殺到 数十万トラフィックをさばく「kifutown」の裏側
ZOZO前社長・前澤友作氏の“お金配り”をスマホアプリ化した「kifutown」。時には短い期間に数万、数十万リクエストが集中することもあるという同サービスを支えるクラウドインフラを、提供元のARIGATOBANKが解説する。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.