ファーストサーバのZenlogic、ストレージ障害の原因は「想定以上の負荷」:対策したはずの設定にもミスが(3/3 ページ)
ホスティングサービスの「Zenlogic」がサービスの全面停止が3日間続く、異例のメンテナンスを行いました。ファーストサーバが公開した報告書から、障害の原因とメンテナンスの長期化に至った背景を推測します。
設定ミスが大量のデータ移動を引き起こし、メンテナンスが長期化
そして、これまでのストレージサーバの増強とネットワークの設定ミスが重なったことが、最終的に大きな問題となった、金曜日夜から月曜日の夜までという“異例”のメンテナンス長期化の原因だったようです。
複数回のストレージシステム増強や設定値変更に伴い、ストレージシステム内部でこれまでになく大量のデータ移動が発生したことおよび、2項のネットワーク設定の一部が不適切な設定となっていたことにより、データ移動完了まで時間を要しました。このため、ストレージシステムの高負荷状態が当初見込みより長期化しました。
ネットワークの設定を正しくし、これまでの設定ミスで偏りが発生していたストレージサーバ間でのデータ移動も最適化しようとした結果、ストレージサーバ間での大規模なデータ移動が発生し、それが終了するまでに予想以上の時間がかかってしまった、ということだと推測されます。
同社は対策として、ストレージのキャパシティプランの見直しと監視の強化、さらにネットワークの設定のチェック処理の追加などを発表しています。
また、障害期間中の利用料金については、SLAとは別基準での返金を検討しており、2018年7月末頃までに個別に連絡するとしています。
この記事は、新野淳一氏のブログ「Publickey」の記事「ファーストサーバのZenlogic、ストレージ障害の原因は想定以上の負荷、対策したはずの設定にミスがあったため長期化」を許可を得た上で転載、編集しています。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
ファーストサーバの「Zenlogic」全面停止3日間続く 再開は「未定」に
ファーストサーバのレンタルサーバ「Zenlogic」で6月19日から断続的に障害が起きたため、7月6日からサービスを全面停止し、メンテナンスが行われている。メンテナンスは9日午前8時までに終了し、サービス再開予定だったが延長されており、再開のめどは立っていない。