Special
» 2019年06月17日 10時00分 公開

放置は厳禁! RAIDのエラーで“やってはいけないこと”と“やるべきこと” (1/2)

HDDを複数台つなげてデータを高速かつ安全に保存できる「RAID」。エラーが起こっても使い続けられる……と思っていると、後でとんでもないトラブルに見舞われることになる。累積で18万件超の相談を受け、最高復旧率95.2%(いずれも自社調べ)の実績を持つ「デジタルデータリカバリー」のエンジニアにRAIDエラー時の心構えを聞いた。

[PR/ITmedia]
PR

 複数のハードディスクドライブ(HDD)を1つのドライブとして認識させる「RAID」という技術。大容量のデータを安全かつ高速に保存できるため、RAIDサーバを導入している企業も少なくない。

 RAIDサーバは耐障害性能も高く、HDDが1台壊れた程度では「事もなく」動いてしまうことが多い。しかし、この障害を放っておくとある日突然、データにアクセスできなくなることがある。また、障害発生時に復旧の手順や方法を間違えてしまうとデータの復旧が余計に難しくなることもある。

 RAIDに障害が発生した時、私たちはどうすべきなのか。各種データ復旧サービスに定評があり、各種データ復旧サービスに定評があり、RAID機器を累計で5050件以上(※1)、他の機器を含めると18万4637件(※2)の相談を受けてきた「デジタルデータソリューション」のデータ復旧事業部「デジタルデータリカバリー(DDR)」においてエンジニアグループのリーダーを務める井瀧義也氏に話を伺った。

※1 自社調べ。2011年1月から2019年5月までの累計値
※2 自社調べ。2001年1月から2018年8月10日までの実績値

デジタルデータリカバリーのWebサイト デジタルデータリカバリーのWebサイト
井瀧義也氏 インタビューに応じてくださったデジタルデータリカバリーの井瀧義也氏

RAID障害時にやってはいけないこと

 RAIDサーバの障害は前兆なく起こることが多い。そのような時、サーバの管理者はいろいろな手で復旧を試みようとする。しかし、先述の通り、その時の対応がまずかったがゆえに復旧が遠のくケースがある

 井瀧氏によると、RAIDサーバの障害が発生した際に「やってはいけないこと」が幾つかあるという。その中でも、特に“典型的”なものを紹介する。

その1:データ復旧ソフトを使った復旧

 データにアクセスできなくなった際に「データ復旧ソフト」で復旧を試みようとする人は少なくない。

 この方法は軽度の論理障害(データ自体の障害)であれば有効だが、HDDに大きな負担を掛けてしまう。そのため、物理障害(HDDあるいはサーバの故障)が発生している場合、あるいは発生が予想される場合は障害を悪化させてしまうのでお勧めできないという。

 また、データ復旧ソフトで直らなかったら復旧会社に依頼しようと考えるのも良くない

 データ復旧ソフトによる復旧が失敗した場合、元のデータが「失敗データ」によって上書きされることがある。簡単にいえば壊れたデータがさらに壊れてしまう可能性があるということだ。壊れたものがさらに壊れるということは、復旧の難易度も上がってしまう

 復旧したはずのファイルが破損したり、復旧したデータが文字化けを起こしたりして、最終的にDDRに復旧を依頼してきた企業もあるという。

 DDRでは、初期診断において障害が論理的なものか物理的なものかを判定してから、復旧の方針を決めている。そのこともあり、データ復旧率は最高で95.2%(※3)と高水準で他の業者で復旧できなかった機器を復旧できた実績もある(※4)。他の業者がさじを投げた場合でも、まずは相談してほしいという。

※3 自社調べ。2017年12月から2018年11月の月別復旧率の最高値(詳しくはこちら
※4 自社調べ。2017年9月から2018年8月までに受けた343件の依頼のうち、205件の復旧実績あり(RAIDサーバ以外の案件を含む)

 診断から見積もりまでは無料なので、障害の原因が分からない場合はまず診断を依頼するのが良いだろう。法人であれば出張診断も無料で受けられる。

初期診断 初期診断工程。初期診断工程。熟練のエンジニアが音で論理障害なのか物理障害なのかを判断する
初期受け入れ 受け入れたストレージには管理番号を付与。取り違えが発生しないように写真も撮影する

その2:HDDの交換(リビルド)

 井瀧氏によると、障害が発生した際にサーバメーカーに問い合わせると「HDDを交換してみてください」「(サーバ本体の)ファームウェアを更新してみてください」「HDDをいったん全部抜いて、差し込み直してみてください」といった簡単なアドバイスしかしてくれないことが多いという。

 企業では「RAID5」あるいは「RAID6」でRAIDを構成していることが多い。確かに、HDDが故障しても、RAID5なら1台、RAID6なら2台までならデータの読み書きは継続できる。

 しかし、HDDはあくまでも消耗品。時間が経過するにつれて、物理的な故障率は高くなっていく。サーバの初期導入時に組み込むHDDは、同時期に稼働を始める。1つのHDDに障害が発生したということは、別のHDDにも近い将来に障害が発生する可能性が高い

 障害発生時はかろうじて正常に稼働していたHDDが、リビルドによって「とどめ」を刺されてしまう可能性があるのだ。

 ある実例を紹介しよう。

 RAIDを構成するHDDのうち、1本に障害が発生。障害が発生したHDDを新しいものに交換した上でリビルドを実行した。ところが、その途中で別のHDDで障害が発生。リビルドは失敗し、データが全く見られなくなってしまった――。

 このケースではDDRに依頼したことでデータを復旧できたそうだが、このような相談はよくあるものだという。

 リビルドの失敗とHDD障害の拡大は、当然のことながらデータ復旧率の低下につながる。井瀧氏はRAIDサーバにエラーが発生したらすぐに相談してほしいと強調する。

リビルド失敗イメージ エラーが発生したHDDを新品に交換してリビルドをかけると、それが原因で他のHDDが故障してしまう可能性がある(デジタルデータリカバリー「RAID崩壊時にやってはいけない事」より)

その3:HDDの抜き差し

 先述の通り、RAIDサーバに障害が発生した場合、サーバメーカーに問い合わせると「HDDをいったん全部抜いて、差し込み直してみてください」とアドバイスされることがある。井瀧氏いわく、みだりにHDDを抜き差しすると、それがさらなるトラブルを起こしうるという。

 構成にもよるが、RAIDは1つのデータを複数台のHDDに分けて書き込む。そのこともあり、HDDの“順番”(ドライブを入れてあるスロットの位置)は重要である。HDDの順番が分かるような目印を振ってあれば話は別だが、多くの企業ではそのようなことはしていない。

 RAIDに障害が発生し、アドバイスに従ってHDDを全部抜いて挿し直そうとしたらどのHDDがどのスロットに入っていたものか分からない。「順番は関係ないだろう」と適当にHDDを戻すと、データが読み込めなくなる。

 すると、サーバが異常を察知し、自動的にリビルドを開始することがある。結果、他のHDDの故障を誘発するだけではなく、データの上書きによってデータ復旧できる確率が低くなってしまうのだ。

 万が一、サーバから抜いたHDDの順番が分からなくなってしまった場合でも、DDRなら順番を特定して復旧につなげることができるという。RAIDサーバのどこにどのHDDを挿せば良いか分からなくなった場合も相談できる。

クリーンルームその1 物理障害が発生したHDDの処置を行う「クリーンルーム」。右端の作業員は、HDDの不良セクタを“音で”見極めている所とのこと
クリーンルームその2 クリーンルームで分解されるHDD。物理障害が発生した場合でも、復旧できた実績が多数あるという
       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.


提供:デジタルデータソリューション株式会社
アイティメディア営業企画/制作:ITmedia PC USER 編集部/掲載内容有効期限:2019年6月23日