Special
» 2013年08月28日 09時30分 UPDATE

先生助けて! 猛暑でRAID・サーバーが息をしていないの

夏は1年を通して最もRAID・サーバーが壊れやすい時期だ。その理由と対策をHDD復旧事業の専門家に聞いた。

[ITmedia]
PR

夏場に起きやすいRAID・サーバー障害

og_ogid_001.jpg 日本データテクノロジーのデータ復旧事業部復旧チームで責任者を務める小菅大樹氏

 データ復旧企業の最大手(※7年連続復旧実績No.1、累積7万5000件の復旧実績、データ復旧率95.1%)、データ復旧.comを運営する日本データテクノロジーによると、夏場特有のRAID・サーバー故障によるデータ復旧依頼件数は、7月から9月にかけて通常月の2倍近くに急増するという。夏期休暇中に会社のサーバーに障害が発生した、あるいは休み明けに異常が見つかり対応に追われた、そんな経験はないだろうか。

 「その主な理由の1つに落雷が挙げられます」――そう語るのは、データ復旧事業部復旧チームの責任者を務める小菅大樹氏だ。「落雷で停電が発生すると、ファイルシステムが破損する論理障害の原因になりますし、個人宅で運用している機器の場合は、過電流によって基板がショートするなど物理的な障害も発生します」と同氏は説明する。特にRAIDシステムの場合、データの書き込み時の停電はパリティ計算にエラーが生じて障害の直接的な要因になるという。

 また、こうした障害は“人為的”に引き起こされることも少なくない。「例年、データ復旧の依頼はお盆明けに集中していますが、問い合わせの中でも多いのが、夏期休暇にあわせたビルの法令点検で、システム管理者に知らされないまま停電が発生したというものです。また、間接的には空調が止められたためにサーバールーム内の温度が上昇して故障に至るケースもあります」と小菅氏は話す。「この熱によるRAID・サーバーの故障は物理的な破損になるのでデータの復旧が通常よりも難しくなります」。

og_ogid_003.jpg HDD基板上にはいくつかのチップが実装されているが、ボールペンで指したモーターを制御するためのチップが発熱して故障の原因になることも

 HDDが熱で壊れやすいのはその構造に起因している。「HDD内部で回転するディスクと、そこからデータを読み出す磁気ヘッドの距離はナノメートルという単位の微少な隙間しかありません。これは、ホコリはもちろん、タバコの煙の粒子よりも小さい。このためHDDは完全に密封された状態になっており、熱がこもりやすい構造なのです。内部にはコントローラーやファームウェアといったいくつかのチップがありますが、中でもモーターを制御するためのチップは非常に発熱しやすく、常時稼働させていると300度を超えることもあります。高温状態が続けば最悪の場合このチップが燃えて煙が出ることさえあるんです」と小菅氏はいう。

og_ogid_002.jpg プラッタと磁気ヘッドの隙間はわずか10ナノメートルほど。HDDの温度変化にあわせて磁気ヘッドの高さを補正する機構が組み込まれているが、熱膨張によってヘッドが押し下げられ、プラッタに接触してしまうことがあるという

 「また、ディスク上に浮かぶスライダ(先端に磁気ヘッドを保持するパーツ)は、HDD内の環境温度によって高さが変化します。具体的には、空気分子密度の変化によって、低温環境下ではスライダが浮上し、そうなるとディスクと磁気ヘッドとの隙間が広がって、記録データの正常な読み取りが難しくなります。記録密度が非常に高い現在のHDDでは、こうしたわずかな差でも影響を受けてしまう。なので、HDD内の温度をモニタリングして、磁気ヘッド内のヒーターを稼働し、熱膨張によって磁気ヘッドの高さを補正する機構が組み込まれているのですが、逆に温度が高すぎると膨張したヘッドがディスク面に接触する可能性があります。夏場に持ち込まれるHDDでプラッタ面にタップ(微細なキズ)があるものは、こうした熱が原因だと考えられます」。

 このほか、特殊なケースでは大規模な豪雨や水害でPCやNASが水没してしまう事例もあるという。「HDD内部は密閉されているので、短い時間であればディスク自体は無事な場合もありますが、むき出しの基板は影響を受けます。もちろん、通電していればPCやNAS側の基板がショートしてしまうので、その結果HDDに障害が発生することもあります」(小菅氏)。

og_ogid_004.jpgog_ogid_005.jpg 豪雨や洪水で床上浸水し、HDDが故障するケースもある。長時間水没したHDDは特殊な溶液によるプラッタ面の洗浄が必要になる。いずれも専用の設備がないと復旧は難しい

HDDを守るには?

 夏にHDD障害が多発する主な要因は停電と熱。仮にきちんとバックアップを取っていたとしても、最新のバックアップから障害発生までに失われるデータは存在する。データ消失のリスクは可能な限り抑えたいと考えるのは当然だ。有効な対策はあるのだろうか。

og_ogid_006.jpg 手軽にできる熱対策は掃除。ホコリまみれのファンは冷却効果が下がるので定期的に掃除しよう

 「まず熱対策ですが、最も簡単なのはPCやNASケース内のホコリを除去することですね。ファンを掃除しないと冷却効果が落ちていくので、これはやらないよりはやったほうが断然いいです。室温に気をつけるのは当然ですし、ケース内のエアフローを阻害しやすい壁際には設置しないといった工夫も必要です」と小菅氏。

 一方、落雷対策にはUPSの導入が有効という。小菅氏は「実は停電が起きていなくても、落雷による影響に備えて送電ルートが切り替わるときに、人間が気付かない『瞬断』が発生していることがあります。予備電源がない環境では、こうした瞬断もRAIDシステムの天敵です。また、落雷に備えてサージ対応の電源タップを使うのも個人では有効な対策だと思います」と語る。

 このほか、製造(使用からではない)から3年以上経っているHDDは交換を検討すること、長期休暇の前にはシステムが正常に動いているかチェックすることも重要という。「よくあるのが、すでにホットスペアを使用した状態でNASを運用していたり、ミラーリングの片方に異常が発生していたという事例です。せっかく冗長性の高いRAIDを構築していても、運用に不備があれば逆効果になってしまいます。9月にはシルバーウィークがあるので、今のうちにチェックしてみてください」とアドバイスしてくれた。

それでも壊れてしまったら?

 もっとも、いくら対策を施していてもHDD障害は起こりうる。このとき最も重要なのは「すぐに専門家へ依頼すること」と小菅氏は力説する。

og_ogid_007.jpg 「プロにまかせるのが最善」と語る小菅氏

 「例えば、落雷による停電でHDDに障害が発生した場合、論理的なエラーということで、PCに詳しいシステムエンジニアの方の中には自己復旧を試みる人もいるのですが、かえって症状を悪化させてしまうケースがほとんどです。もともと、単なる論理障害であれば弊社のデータ復旧率はほぼ100%に近いのですが、お客さま自身がHDDを入れ替えたり、RAID構成を変更してしまっていることで復旧が困難になっていることがあります。特に最悪のケースは『リビルドがかかってしまった』というもの。データの復旧を望むのであればこれは絶対にやめてください。また、熱でHDDが動かなくなった場合は、自分でデータを取り出すために無理に通電させるとチップが燃えて火災につながる危険性もゼロではありません」。

 ちなみに、床上浸水などで長時間HDDが水没しても復旧は可能という。「この場合は完全な物理障害になるので復旧率は7割近くまで落ちてしまいますが、データを取り戻す可能性が残っているということは覚えておいてください。ただし絶対に通電しないこと。また、プラッタに水滴が付着すると表面の特殊な保護膜を壊してしまうだけでなく、この状態で乾かすと逆にプラッタ面に不純物だけが残り、クリーニング(特殊な溶液を使う)が難しくなるので、何よりもまず、できるだけ早く持ってきて頂くことが重要になります」(小菅氏)。

 データ復旧事業者の中でも高い技術力で定評のある日本データテクノロジーは、一般に復旧が難しいとされるRAIDシステムの復旧も、電話による初期診断は無料で受け付けている(ホームページを見て問い合わせた場合/通常は3万円)。HDD障害発生時は、失われたデータが重要であればあるほどパニックになりやすいが、その後の対応で復旧率は大きく変わってくる。まずは慌てずに、データ復旧.comに問い合わせてみよう。

Copyright© 2017 ITmedia, Inc. All Rights Reserved.


提供:OGID株式会社
アイティメディア営業企画/制作:ITmedia PC USER 編集部/掲載内容有効期限:2013年9月17日

関連リンク