ITmedia NEWS > 企業・業界動向 >

Spotify、3月8日に起きた世界規模のログイン障害について原因を報告 Google Cloudの障害が影響

» 2022年03月16日 10時06分 公開
[新野淳一ITmedia]

この記事は新野淳一氏のブログ「Publickey」に掲載された「Spotifyが全世界でログインできなくなった3月8日の障害について原因を報告。Google CloudのTraffic Directorの障害がgRPCライブラリのバグを踏んだと」(2022年3月16日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。

 音楽配信サービスのSpotifyは先週、2022年3月8日の午後6時頃(日本時間9日午前3時頃)から2時間以上、ログインができなくなるなどの障害がグローバルに発生していました。午後8時半頃には障害が収束し、正常化しました。

 スウェーデンSpotifyのエンジニアリングチームは、この障害の原因についての報告を、ブログの記事「Incident Report: Spotify Outage on March 8」として公開し、Google Cloudの「Traffic Director」の障害が引き金であったことなどを説明しています。

Google Cloud Traffic Directorの障害が引き金に

 Spotifyのシステムはマイクロサービスでできており、サービス間でお互いを発見(Discovery)するために、多くはDNSベースのサービスディスカバリを利用していたものの、一部でEnvoyプロキシのxDS APIベースのGoogle Cloud Traffic Directorを採用していたとのこと。

 そして3月8日にこのGoogle Cloudが提供するTraffic Directorに障害が発生

 これがgRPCを用いたクライアントライブラリのバグ、処理に失敗した際にチャネルにエラーを伝播していくというバグと組み合わさり、Spotifyのログイン処理に問題を引き起こしたと説明されました。

 Spotifyのエンジニアチームはこの原因を発見し次第、障害が発生したシステムをDNSベースのサービスディスカバリへと設定変更し、正常な状態へと回復させました。

 Spotifyは今後の対策として、今回の障害についてGoogle Cloudと協力して分析を行うとともに、障害発生をさらに早期に発見するための監視とアラート機能を強化するとのことです。

Copyright © ITmedia, Inc. All Rights Reserved.