メディア

第4回：ディザスタ対策最後のポイント――人的／体制的な問題はありませんか？：備えは万全？　サーバの災害対策（1/3 ページ）

ディザスタ対策で最後に残る問題点は人的／体制的なものだ。いくらしっかりした対策ができるようにしても、それを運用する人間に間違いがあったらすべての対策は無意味になる。ここでは、どのような点をチェックすべきかを考えよう。

» 2006年08月04日 08時00分公開

[高橋隆雄, 松井一朗，ITmedia]

この記事はサーバセレクトオンライン特集「備えは万全？　サーバの災害対策」のコンテンツです。

これまでの記事は以下になります。

第1回：まず、間違いだらけの電源環境をチェックしよう

第2回：ディスク／データ保護のための対策を考えよう

第3回：マシンルームにある落とし穴をチェックする

Check Point 10:日ごろから訓練しているか?

　災害発生時の行動指針があるように、システムトラブル時の行動計画もきちんとと立ててあるだろうか。例えば、RAIDを構成するディスクがトラブルを起こした場合、元の状態に復元する方法を理解し、かつ即行動に移せるかということである。

　RAIDの中にホットスペアが用意されている場合も注意しなければならない。ホットスペアが自動的に組み込まれた後、障害を起こしたディスクを取り除き、新しいディスクと交換し、それをホットスペアとして定義することがすぐにできるだろうか。

　RAIDシステムによっては単に物理的にディスクを交換するだけで、すべての処理を自動的に行ってくれるものもあるが、人手による操作を必要とするものもある。いざという時に備えて日ごろから体で覚えておくことが重要で、災害時の避難訓練にも通じるものがある。

　いったんシステムが正常運用に入ると、障害発生時の対処方法は忘れがちになる。加えてシステムの障害はそう頻繁に発生するわけではない。そのため、特にこの傾向は強くなる。もちろん、本番系のシステムで訓練を行うわけにはいかないので、バックアップ系や開発系など、障害を擬似的に引き起こしても問題のないシステムを利用し、訓練しておくべきであろう。例えば、運用中にRAIDから特定のディスクを切り離して異常（障害）状態とし、再度組み込んで正常状態に戻すという作業を練習しておくのである。

　このような訓練／練習にうってつけなのが、システムを本番系に組み込む前の状態である。システムをダウンさせても問題にならないのだから、思う存分練習ができる。加えて、本番系のシステムは実稼働に投入する前にしばらくの期間使っておくことで、運用開始後のトラブルを減らすことができる。

　これはいわゆる「エージング」と呼ばれる作業であり、工業製品の不良／トラブルは製造直後と一定期間後に発生しやすいという、バスタブ特性に基づく考え方だ(図1)。一般的に製品の故障は製造から稼働時間経過が短い場合に多く発生し、少しずつ下がっていく。このaが初期不良が発生する期間だ。この期間を過ぎると故障発生率は低くなり、しばらくの間は故障が発生しにくくなる。一定時間を経過した後にはまた故障発生率が上がる。このbの期間が寿命に当たり、この後は故障発生率が高くなる一方となる。

　つまり、この初期不良の期間を乗り切ってしまえば故障発生率は低くなるので、安心してシステムを運用に持ち込むことができる。高い信頼性を要求される機器ではメーカーでエージングの期間を設け、システムなどを長時間稼働させて初期不良を出し切った後に、出荷するということが行われる。

　しかし、現在のコスト重視のPC関連市場では、エージングが行われることはごくまれである。そのため、システムやハードディスクを購入したなら、しばらくは自社内で動作させて初期不良を出し切り、その後に本番系への組み込みを行う。このエージングの期間で操作や異常系対処に習熟しておけば、一石二鳥である。