そして、これまでのストレージサーバの増強とネットワークの設定ミスが重なったことが、最終的に大きな問題となった、金曜日夜から月曜日の夜までという“異例”のメンテナンス長期化の原因だったようです。
複数回のストレージシステム増強や設定値変更に伴い、ストレージシステム内部でこれまでになく大量のデータ移動が発生したことおよび、2項のネットワーク設定の一部が不適切な設定となっていたことにより、データ移動完了まで時間を要しました。このため、ストレージシステムの高負荷状態が当初見込みより長期化しました。
ネットワークの設定を正しくし、これまでの設定ミスで偏りが発生していたストレージサーバ間でのデータ移動も最適化しようとした結果、ストレージサーバ間での大規模なデータ移動が発生し、それが終了するまでに予想以上の時間がかかってしまった、ということだと推測されます。
同社は対策として、ストレージのキャパシティプランの見直しと監視の強化、さらにネットワークの設定のチェック処理の追加などを発表しています。
また、障害期間中の利用料金については、SLAとは別基準での返金を検討しており、2018年7月末頃までに個別に連絡するとしています。
この記事は、新野淳一氏のブログ「Publickey」の記事「ファーストサーバのZenlogic、ストレージ障害の原因は想定以上の負荷、対策したはずの設定にミスがあったため長期化」を許可を得た上で転載、編集しています。
Copyright © ITmedia, Inc. All Rights Reserved.