SpotifyがミスによりKubernetesの本番クラスタを二度も削除。しかし顧客へのサービスにほとんど影響しなかったのはなぜか?(1/2 ページ)
「KubeCon+CloudNativeCon Europe 2019」の基調講演をレポートする。音楽配信サービス「Spotify」運営元は、ミスによりKubernetesの本番クラスタを二度も削除してしまった。だが、顧客へのサービスにほとんど影響しなかった。それはなぜか?
この記事は新野淳一氏のブログ「Publickey」に掲載された「SpotifyがミスによりKubernetesの本番クラスタを二度も削除。しかし顧客へのサービスにほとんど影響しなかったのはなぜか?」(2019年7月8日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。
2019年5月20日から3日間にわたりスペイン バルセロナで開催されたKubeCon+CloudNativeCon Europe 2019の基調講演では、SpotifyがミスによってKubernetesのクラスタを消去してしまった経験を振り返るという非常に興味深いセッション「Keynote: How Spotify Accidentally Deleted All its Kube Clusters with No User Impact - David Xia」(基調講演:SpotifyはいかにしてKubernetesクラスタの全削除というミスにもかかわらず顧客への影響を引き起こさなかったのか?)が行われました。
障害が起こることをあらかじめ計画としてインフラの構築にどう反映させるのか、そして堅牢なシステムはどのような企業文化から生まれるのか、といった点を学べるセッションになっています。
本記事ではその内容をダイジェストで紹介しましょう。
SpotifyはGoogle Kubernetes Engineを採用
Spotifyのインフラエンジニア、David Xia氏。
Spotifyは音楽をストリーミングサービスとして提供しており、10億人以上のユーザーがサブスクリプションしている。1000人以上のデベロッパーが1万以上の仮想マシンを基盤に開発している。
インフラはGoogle Cloud Platformを利用しており、Kubernetesの基盤としてGoogle Kubernetes Engine(GKE)を利用。
米国、欧州、アジアの3つのリージョンにそれぞれKubernetesの本番クラスタを構築。各クラスタは1時間ごとにバックアップが実行される。
誤ってKubernetesの米国クラスタを削除
2018年、私はGKEの機能をテストするため、本番クラスタと同じ機能を持つテストクラスタを作成して操作していた。
このとき、Webブラウザのタブを複数開いており、あるタブはKubernetesの本番クラスタ、別のタブはKubernetesのテスト用クラスタを操作するためのものだった。
テストが終わったあと、テストクラスタを削除するつもりで、操作するタブを間違って本番クラスタのタブでクラスタの削除を行ってしまう。
GKEはとても操作が簡単で、簡単にKubernetesクラスが作れる。同様に、簡単にKubernetesを削除できる。そして削除をはじめたらその処理を止める方法はない。
失われたクラスタを再作成するには手作業が必要で、しかも手順がちゃんとマニュアル化されておらず、スクリプトにもバグがあったことなどが影響して、3時間15分かかった。
再びKubernetesのクラスタを削除、今度は2つも削除
約1カ月後、われわれはクラスタ作成をコード化することでこうした問題が再び起こることを防ごうと、Terraformを導入した。
これによってクラスタの作成をコード化し、バージョン管理や変更時のレビューなどが可能になる。
しかしこれが原因で、こんどは1つならず2つのクラスタを失うことになるのだ。次にその話をしよう。
Terraformはクラスタの状態をファイルに保存する仕組みを備えているが、使い始めのころはまだそうした挙動に詳しくなかった。
あるエンジニアがクラスタ定義の動作を確認するためレビュービルドを行ったところ、知らないうちにクラスタの状態を示すファイルが書き換わってしまい、これを本番用のコードにマージしてしまった。
それを本番クラスタに適用したところ、本番クラスタからアジアリージョンが失われてしまった。
アジアクラスタを再構築するべく、Terraformのスクリプトをローカルで動作確認したのちに本番環境で実行した。しかしローカル環境では気付かなかった、本番環境でのパーミッション不足があり、その結果、動作不良によりわれわれは米国リージョンのKubernetesクラスまで失うこととなった。
3つある本番用Kuberntesクラスタのうち、2つまでの同時に失ってしまったのだ。
ユーザーから障害が影響したというレポートはまったくなかった
この障害によってエンジニアチームは、非Kubernetesベースの仮想マシンを多数立ち上げることとなり、それにあわせてインフラチームは古いIPアドレスベースで記述されていた部分を全てアップデートするといった作業に追われた。
しかし幸いにも、この障害によってユーザーになにか影響があったという報告はまったくなかった。
関連記事
- 「君、今日からクラウド担当ね」 未経験者が1人で始めた、ファミマのAWS移行の舞台裏
「AWS Summit Tokyo 2019」のセッションに、ファミリーマートでクラウド移行の責任者を務める土井洋典さんが登壇。土井さんは、前任者が突然退職したため、ある日突然上司からクラウド担当を任された経験を持つ。たった1人でのスタートだったというが、どうやってAWS移行を成功させたのだろうか。 - 「この虫の名は?」すぐ解決 20万匹の害虫画像を学習した、駆除を支える「クラウド×AI」がスゴい
大阪に拠点を置く、害虫駆除機器の専門商社「環境機器」が、害虫の画像を自動で取得し、名前を判定するサービス「Pest Vision」を開発。画像は、Amazon Web Services上に構築したAIを使って分析している。環境機器の担当者に、その仕組みと精度について聞いた。 - ラーメン屋・幸楽苑、店長の「シフト作成」をクラウド活用で自動化へ 「バイト入れる?」と聞く手間省く
ラーメンチェーンの幸楽苑が、アルバイトの勤務シフトを自動作成するクラウドサービス「beepシフト」を導入する。アルバイトが働きたい日時を専用のアプリに入力すると、時間ごとに必要な人数を分析した上で、シフトを作成する仕組み。店長が手作業でシフトを決める負担を軽減する狙い。 - PayPay“100億円祭”の裏側で何があったのか システム障害と苦闘したエンジニア
PayPayで昨年12月に展開した「100億円あげちゃうキャンペーン」。その間、ユーザー数の増加に伴い、PayPayのシステムは不安定な状態に。押し寄せる膨大なアクセスに、PayPayのエンジニアはどのように対応したのか。
Copyright © ITmedia, Inc. All Rights Reserved.