ホスティングサービスの「Zenlogic」がサービスの全面停止が3日間続く、異例のメンテナンスを行いました。ファーストサーバが公開した報告書から、障害の原因とメンテナンスの長期化に至った背景を推測します。
この記事は、新野淳一氏のブログ「Publickey」の記事「ファーストサーバのZenlogic、ストレージ障害の原因は想定以上の負荷、対策したはずの設定にミスがあったため長期化」を許可を得た上で転載、編集しています。
ファーストサーバが提供しているホスティングサービス「Zenlogic」は、2018年6月下旬から断続的に生じていたストレージ障害に対応するためのメンテナンスを行いましたが、終了の見通しも立たないほど難航し、結局、メンテナンス開始から3日後の夜にようやくサービスが再開されるという事象がありました(参考記事)。
サービス再開から約1週間が経ぎた7月17日、同社はストレージ障害に関する原因およびメンテナンスによるサービス停止が長期化してしまった原因、再発防止策についての報告書を公開しました。
報告書によると、ストレージ障害の直接の原因は、想定を上回る負荷上昇による高負荷状態であり、さらにその対策として行ったネットワーク設定にミスなどがあって、ストレージシステム全体がスローダウンしてしまったとのことです。
Zenlogicは、Yahoo! JapanもしくはAWSのいずれかのインフラ上にファーストサーバがサービスを構築するアーキテクチャを採用しています。ファーストサーバは自社でインフラを保有しない戦略を採っているためです。
今回障害が起きたのは、Yahoo! Japanのインフラ上に構築されたZenlogicであり、過去にファーストサーバが発表した内容から、ストレージは分散ストレージのCephで構築されていると推測できます。
Cephは、ストレージサーバをネットワークでつなげて増やしていくほど性能と容量が向上する、いわゆるスケールアウト可能な分散ストレージを実現するソフトウェアです。ただし、もちろん無限にスケールできるわけではありません。このシステム構成の推測と同社の報告を組み合わせて、何が起きていたのかを見てみましょう。
Copyright © ITmedia, Inc. All Rights Reserved.