Special
» 2020年03月23日 10時00分 公開

サーバ障害から企業を救う”最後の砦”――IT企業の大型サーバ復旧の裏側に迫る (1/2)

大切な企業データの入ったサーバが障害でアクセスできない――そんな一大事に、サーバの管理担当者はどのような行動を取るべきなのか。データ復旧において、累積で18万件超の相談を受け、最高復旧率95.2%(いずれも自社調べ)の実績を持つ「デジタルデータリカバリー」のエンジニアにサーバ復旧に関する意見を聞いてみた。

[PR/ITmedia]
PR

 デジタル化が進む昨今、企業のデータは、あらゆる記憶媒体に保存されている。その中でも大規模なものとして挙げられるのが「サーバ」だ。

 仕事のデータを自社サーバで保管している企業も多いだろうが、このようなサーバに不具合が発生することも珍しくはない。サーバの不具合によって企業のデータが失われたとなれば、“緊急事態”となる。

 そんなサーバ障害が発生した際にデータを救う「最後の砦」となるのが、データ復旧業者だ。その中の1社であるデジタルデータソリューションのデータ復旧事業部「デジタルデータリカバリー」は、累計で18万件以上のデータ復旧の相談を受けた実績(※1)を持つ国内有数のデータ復旧業者で、高い技術力を武器に、他社では復旧できなかった機器も、数多く復旧してきた実績があるという。

 ただ、事業の性質上、データ復旧サービスの品質は比較することが難しい。「技術力がすごい」「実績がすごい」と言われても、いまひとつピンと来ないのが正直なところでもある。

 その裏付けを得るために、同社のトップエンジニア3人から直近における難易度の高かった復旧事例と、復旧業者を選ぶ上でチェックしたいポイントについて話を聞いた上で、実際の作業現場を見学した。

(※1)自社調べ。2011年1月から2019年5月の実績値で、サーバ以外のデータ復旧事例を含む

Webサイト デジタルデータリカバリーのWebサイト
3人 デジタルデータリカバリーのエンジニアグループのトップエンジニアの皆さん。左からメモリチームの万紅宇氏、ロジカルチームを統括する柳田悟氏、エンジニアグループを統括する井瀧義也氏

トップエンジニアが語る「サーバ復旧の裏側」

 先述の通り、デジタルデータリカバリーは日々多くの問い合わせを受けている。まず、トップエンジニアにその実情を聞いた。

 インタビューに応じてくださったのは、エンジニアグループを統括する井瀧義也氏、ロジカル(論理障害担当)チームを率いる柳田悟氏、そしてSSDやボディー修理を得意とするメモリチームの万紅宇氏の3人で、大型のRAIDサーバや、他社では不可能と判断された“難物件”など、累計で1万件以上の復旧案件に向き合ってきたという。

柳田氏 柳田氏

―― 企業のサーバの復旧に関する問い合わせとしては、どのようなものがあるのでしょうか。

柳田氏 症状や障害状況はさまざまです。「再起動をしたらサーバが立ち上がらなくなってしまった」とか、「データ移行の際に、誤ってデータを削除してしまった」とか、「いろいろ試しているうちに、訳が分からなくなってしまった」とかですね。

―― 直近の具体的事例としてはどのようなものがありますか。

柳田氏 あるIT企業から、大型のサーバが持ち込まれた事例があります。メンテナンスの際に再起動をかけたところ、フォルダーにアクセスできなくなってしまい、サーバのメーカーや他の復旧業者に復旧を依頼したものの失敗してしまったものです。

 構成の概要は以下の通りです。

  • サーバ:ラックマウント式
  • ストレージ:8TB HDD×12台
  • RAID構成:RAID 6(上記のHDDを束ねて80TBのストレージとして運用)
  • 使い方:サーバ(NAS)上でiSCSI LUNを作成し、Windows Serverから参照。複数のクライアントから外部アクセスあり

―― このサーバはどのような状況だったのでしょうか。

柳田氏 システムをお預かりした後の初期診断の段階で、iSCSIの論理障害であることが分かりました。

 具体的に説明すると、このサーバは62個のiSCSIファイルを「JBOD」で全て連結して、1つのドライブとする構成です。最終的には53TBのデータが保存されていたことが分かったのですが、当初はそのうちの2TB程度しか見られない状態でした。

―― 難易度が高かったポイントは、どのあたりでしょうか。

柳田氏 iSCSIファイルを全て正常につなげる状態での論理障害なら、復旧はそれほど困難ではありません。しかし、この事例ではデータが書かれていないはずの領域が使用されていたり、その逆だったりと62個全てのファイルが論理的に破損しているため、復旧できなかったのです。

 本来、iSCSIのファイルは全部同じサイズ(セクタ数)になるはずなのですが、全部違うサイズで見えている状態でもありました。このような複雑な壊れ方だと、障害の原因を特定することが難しく、復旧の難易度も格段に上がります。

―― それをどうやって復旧したのですか。

柳田氏 そのままの状態では、62ファイルを連結することができません。なので、バイナリとファイルシステムの情報を参照し、全てのファイルについて本来のサイズとセクタ位置を突き止めていき、1つ1つ修復していきました。1セクタでも本来のサイズとズレてしまったら、アウト(修復不可能)です。

イメージ図 この事例におけるサーバのストレージ構成イメージ図。RAID 6ドライブ内には62個のiSCSIファイルがあった。本来であれば、これを全部連結して1つのドライブとして認識されるが、全てのファイルが論理的に破損していたために、そのままではデータを読み出せない状態となった

―― かなり手作業といいますか、職人芸に近いイメージですね。日数はどのくらいかかったのでしょうか。

柳田氏 診断に1日、復旧に5日間ですね。通常なら、ご依頼の約80%が48時間(2日)以内に復旧を完了できるので、この事例は時間を要した方です。

―― 復旧作業は柳田さんが1人で担当されたのでしょうか。

柳田氏 メインの担当は私ですが、こうした複雑な復旧案件にはさまざまな経験がものを言います。井瀧グループ長を始め、周囲のエンジニアにもアドバイスをもらいつつ進めていきました。最速かつ正確に復旧するために、あくまで個人ではなく組織で復旧にあたっています

―― 依頼者は、デジタルデータリカバリーに依頼する前に別のデータ復旧業者に依頼したそうですが、その業者がデータを復旧できなかった要因はどこにあると思いますか。

柳田氏 依頼者からの報告を見る限りでは、その業者では内部のデータ構造自体を把握できていなかったのだと思います。複製した(クローン)HDDを使って、RAIDの再構築(リビルド)も試みたようですから、HDDの物理障害しか可能性として考慮していなかったようにも見えます。

 もちろん、HDDの物理障害は可能性としてはありますし、私たちもチェックしました。しかし、その問題ではないことはすぐに分かりました。

井瀧氏 井瀧氏

井瀧氏 この報告が正しいとすれば、(最初に依頼を受けた業者は)このNASシステムに対する基本的な知識にそもそも欠けています。というのも、このシステムではHDDの「デバイスID」を用いてRAIDを管理しているので、単純に同型番かつ同リビジョンのHDDでクローンを作ったとしても、RAIDを構成するディスクとして認識されません。

 今回は無事に復旧できたから良かったのですが、論理的障害にしても物理的障害にしても、技術力を伴わないアプローチを下手に打ってしまうと、状況をかえって悪化させてしまう可能性が高いです。当然、復旧率も下がります。

 サーバは特に(復旧に向けて)検討すべき要素が多く、技術力が必要です。当然、保存されているデータも重要度が高いでしょうから、技術力を伴わないアプローチを避けるのは賢明だと思います。

―― 「サーバは検討すべき要素が多い」というのは、具体的にはどういった点になるのでしょうか。

井瀧氏 サーバの場合、ボディー、RAID、仮想化、iSCSI……といった具合に、通常のPCと比べると構造が複雑なことが多いです。ですから、技術的な基礎知識の段階で、対応できる復旧業者は限られます

 仮に技術的な知識があったとしても、考慮すべき要素が多く、迅速かつ的確な判断を下すには経験が重要です。病気を診る医師が、一度も経験したことがない症状よりも、過去に診察したことのある症状ならより的確な判断を下せることと同じです。

―― 技術が分かっているだけではなく、具体的な症例を見た経験も重要なのですね。

井瀧氏 技術を分かっているというのは基本にすぎません。知見の多様性が重要です。

 私たちは、それぞれの知見を共有して復旧に当たるようにしていますが、1人1人の力量も重要ですので、人材への投資は惜しまず行い、経験豊富なエンジニアをそろえています。ここにいる万は中国出身で、前職ではメモリ系の修理に携わっていました。データ復旧の技術が進んでいるロシア出身のエンジニアもいます。新たな技術や経験を習得するために海外研修を行うと共に、社内での技術研修も定期的に実施して、知見を共有/継承できるよう努めています。

―― こうしたサーバ障害が発生したときに、システム担当者はどうすべきなのでしょうか。

井瀧氏 原因が明確に分かっているのであれば話は別ですが、よく分からない状態でいろいろ試すのは良くありません。試行錯誤しているうちに、やってはいけないことを繰り返して、障害をますます悪化させてしまい、結果的に復旧が困難になってしまったという例も少なくありません。

 復旧の可能性を高めたいということであれば、そのままの状態で、まず私たちにご相談いただきたいですね。

万氏 万氏

―― 最近はPCだけではなく、サーバもSSDを利用するものも増えていますよね。SSDやフラッシュメモリのデータ復旧についてはどのような状況でしょうか。

万氏 SSDを含めたフラッシュメモリを搭載した機器の復旧は、私が所属するメモリチームで担当しています。これらの機器は、データの保存形式がHDDと異なることもあり、業界的にも復旧は困難といわれ、対応ができない業者も多いようです。

 しかし、デジタルデータリカバリーでは海外からの技術導入を積極的に行っていることもあり、対応が可能です。特に私の出身地でもある中国圏では、フラッシュメモリの開発が盛んに行われていることもあり、前職の知識を生かせます。

 「物理障害」や「ファームウェア障害」であっても、復旧率は高い水準を維持できています。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.


提供:デジタルデータソリューション株式会社
アイティメディア営業企画/制作:ITmedia PC USER 編集部/掲載内容有効期限:2020年3月29日