ファーストサーバのZenlogic、ストレージ障害の原因は「想定以上の負荷」対策したはずの設定にもミスが(3/3 ページ)

» 2018年07月25日 08時00分 公開
[新野淳一Publickey]
前のページへ 1|2|3       

設定ミスが大量のデータ移動を引き起こし、メンテナンスが長期化

 そして、これまでのストレージサーバの増強とネットワークの設定ミスが重なったことが、最終的に大きな問題となった、金曜日夜から月曜日の夜までという“異例”のメンテナンス長期化の原因だったようです。

複数回のストレージシステム増強や設定値変更に伴い、ストレージシステム内部でこれまでになく大量のデータ移動が発生したことおよび、2項のネットワーク設定の一部が不適切な設定となっていたことにより、データ移動完了まで時間を要しました。このため、ストレージシステムの高負荷状態が当初見込みより長期化しました。

 ネットワークの設定を正しくし、これまでの設定ミスで偏りが発生していたストレージサーバ間でのデータ移動も最適化しようとした結果、ストレージサーバ間での大規模なデータ移動が発生し、それが終了するまでに予想以上の時間がかかってしまった、ということだと推測されます。

 同社は対策として、ストレージのキャパシティプランの見直しと監視の強化、さらにネットワークの設定のチェック処理の追加などを発表しています。

 また、障害期間中の利用料金については、SLAとは別基準での返金を検討しており、2018年7月末頃までに個別に連絡するとしています。

 この記事は、新野淳一氏のブログ「Publickey」の記事「ファーストサーバのZenlogic、ストレージ障害の原因は想定以上の負荷、対策したはずの設定にミスがあったため長期化」を許可を得た上で転載、編集しています。


前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ