データの長期保存のためにまずすべきことは、異なる2種類以上のメディアで、複数のコピーを作成することです。
では、コピーは何個必要でしょう。ちょっと回り道しながら考えます。
人間のI/O(入出力)機能である、目、鼻、耳、手足は、それぞれ2つずつあります。つまり、冗長度は「2」となります。
さらに究極の参考例として、最も長い時間をかけて淘汰されてきた、生命のDNA複製の仕組みから学ぶこともできます。
DNA分子は1細胞当たり、1日に最大50万回も損傷が発生すると言われています。しかし、それでも私たちが正常に生きていられるのは、DNAに自己修復機能があるからでしょう。このような修復のメカニズムは1つではなく、さまざまな段階と方法によって間違った情報が複製されないような仕組みになっています。その修復が追いつかなくなったり、何らかの異常が発生すると、老化や自己破壊、あるいはガン化してしまうと考えられています。
DNA分子に書かれているゲノム(遺伝子と染色体から成る、DNAのすべての遺伝情報)はデータです。そのうちの遺伝子は、最も重要なデータと言えます。通常、ヒトの細胞には遺伝子が2個(2コピー。ただし個人差があり、1コピーの人、3コピーの人もいるようです)あり、1つは父方、もう1つは母方に由来するとされています。ちなみに地球の生物界には、遺伝子のコピーを4〜10個も持っているものも存在します。
一般的な自動車の冗長度は「2」と言われています。単一の故障ならば走行が継続可能ということですが、(法規順守など社会的な影響はさておいて)安全性に直接影響が少ないランプ類などは冗長化されていません。
より高い安全性が求められる航空機の場合は、一般的に3重、つまり冗長度「3」が確保されていると言われています。さらに高い安全性を求める有人ロケットなどでは、冗長度「4」が取られているものも多いようです。
ITの世界では、冗長化もより一般的です。みなさんにも馴染みのある「データバックアップ」はどうでしょう。個人用途ならば、オリジナルデータの複製くらいですかね。つまりコピーは1つ、冗長度は「2」となります。
エンタープライズ用途ではもっと高度になります。バックアップを取ったとしても、オリジナルデータを保管するサーバと同じ施設に置いていたならどうでしょう。もし、大きな災害が発生して設備ごと破損する事態になったら、どちらのデータもなくなってしまうリスクがあります。そのため、離れた場所にもう1つ複製データを持ったり(リプリケーションといいます)、バックアップデータを保存するよう体制を整えるのが一般的です。その場合の冗長度は、「2」から「3〜4」となります。
また、Hadoopのような分散ファイルシステムやクラウド型のオブジェクトストレージ(AWSのAmazon S3など)は、レプリケーション(複製データ)のデフォルト値が「3」となっています。同一サーバにおける電源故障などの影響を受けないよう、データは3つの異なるサーバに分散して保存し、かつ、そのうち1つは異なるラックのサーバに保存することで消失リスクを抑える仕組みです。
私たちの周りの「冗長度」 | 人間の感覚器官 | ヒトの遺伝子 | 他の生物の遺伝子 | 自動車 | 航空機 | 有人ロケット | ITでのデータ複製 |
---|---|---|---|---|---|---|---|
冗長度 | 2 | 2(1〜3) | 4〜10 | 2 | 3 | 4 | 2〜4 |
最後に、コピーを作成する「記録メディア」の選択も重要です。耐久性が高く、長期に生産され続けられる、低コストのメディアとともに運用するのが理想的ということになります。
……改めてこのように考えると、大切なデジタルデータのコピーを何個、そしてどんな手段で残せばよいか、その道は見えましたでしょうか。
(続く)
日本ヒューレット・パッカード株式会社 ストレージテクノロジーエバンジェリスト。ストレージ技術の最先端を研究、開発を推進。IT業界でハード設計10年、HPでテープストレージスペシャリストを15年経験したのち、現在SDS(Software Defined Storage)スペシャリスト。次世代ストレージ基盤、特にSDSや大容量アーカイブの提案を行う。テープストレージ、LTFS 関連技術に精通し、JEITAのテープストレージ専門委員会副会長を務める。大容量データの長期保管が必要な放送 映像業界、学術研究分野の知識も豊富に有する。
Copyright © ITmedia, Inc. All Rights Reserved.