ストレージ市場の最新トレンド

「重複排除」でストレージの無限増殖に歯止めをかけるディスクとテープの使い分け

大容量のデータをいかにして保管しておくか。これは多くの企業が抱える悩みである。これを解決するために、ストレージの容量を効率化する技術が登場している。同じ内容のデータを検出・削除するデデュプリケーション(重複排除)や圧縮だ。

» 2009年03月02日 08時00分 公開
[大神企画,ITmedia]

圧縮による容量の最適化

 内部統制では、証跡として定められたデータを保管しておかなければならない。商取引に利用した各種ドキュメントはもちろん、メールの送受信データからシステムの操作ログなど、さまざまなデータが該当する。これらをきちんと保管し、監査時の要求に従って即座に検索・閲覧できる必要があるのだ。

 データは毎日毎時、膨大な容量が蓄積されていく。そのままの状態でデータを保存していたのでは、ストレージの容量がいくらあっても足りなくなる。そこで今、急速に普及しつつあるのが、ストレージの容量を効率化する技術である。

 ストレージ容量を効率化する技術としては、古くから「圧縮」という手法があった。最終的なバックアップメディアとして使われているテープの場合、圧縮して利用することは当たり前になっている。ファイルシステムやデータベースも、ごく普通に圧縮機能を備えている。頻繁にアクセスするデータを読み書きする場合、データの圧縮・復元によって性能が損なわれるおそれもあるが、データのバックアップやアーカイブの用途ならばパフォーマンスの面でもほぼ問題はない。

 さらに、最近では性能を損なうことなく、ストレージに保存するデータをリアルタイムに圧縮できるソリューションも登場しつつある。例えば、東京エレクトロンデバイスが販売する「Storwize STN-6000」は、ファイルサーバやNASに保存するデータをリアルタイムに圧縮するアプライアンス。ストレージの構成を変更することなく、容量を効率化できるというスグレモノだ。ちなみに、Storwizeが採用するデータ圧縮アルゴリズムは、ファイル圧縮で馴染み深いZIPやLZHで使われているものと同等であり、万一のトラブルの際もクライアントツールを使ってデータをディスクから抜き出せる。

重複排除を実現する2つの方式

 しかし、ただ単純にデータを圧縮するだけでは、爆発的に増え続けるデータ容量に追いつかないのが実情だ。そこで注目されているのが、デデュプリケーション(重複排除)という技術である。これは、データをストレージに保存する際、重複部分を自動的に検出・削除するというものだ。

 実は、企業システムで扱うデータの中には、非常に多くの重複データが存在している。例えば、ビジネスに使うドキュメントを世代管理している場合、ほとんどの部分が重複するデータと言える。また、社内メールにドキュメントのファイルを添付して複数の宛先に送信した場合、宛先の数だけ重複したデータが生成されることになる。これらをそのままの状態で保管するのは、ストレージ容量の観点からは非常に無駄が多い。デデュプリケーション機能は、こうした重複部分を指定されたバイト数単位で調べ、重複部分があれば書き込まないという動作を行うものだ。

 重複を排除する機能には、大きく2つの方式がある。1つは、システムからストレージにデータを転送する過程において重複するデータを検知し、削除する方式だ。この方式は、ストレージの容量削減効果が高いというメリットがある。ただし、データ転送中に重複排除の処理を行うため、処理装置には高い性能が求められる。

 もう1つは、システムからストレージにすべてのデータを保存してから改めて重複排除するというもの。これならば、重複排除の処理装置に高い性能は必要ない。ただし、データをいったん保存するための容量をあらかじめ準備しておかなければならず、処理にも時間がかかってしまう点が課題となる。

データ量が増えてしまうモデルケース。オリジナルの業務データに加え、バックアップ、アーカイブ、テスト環境などの名目で際限なく増加してしまう。これではいくらストレージを用意してもきりがない――(ネットアップ資料より)

バックアップストレージを中心に重複排除機能を搭載

 重複排除機能を備えた装置は、多くのベンダーから提供されている。例えば、IBMの「IBM System Storage TS7650G ProtecTIER De-duplication Gateway」は、「HyperFactor」という独自の重複排除機能を備えており、システムからストレージに転送するデータをインラインで処理する。IBMによると、バックアップやアーカイブのデータを最大25分の1程度に削減できるという。HPはバックアップストレージである「HP StorageWorks D2D4000 Backup System」や「HP StorageWorks 6000 Virtual Library System」に重複排除機能を搭載する。

 日立もコンテンツアーカイブ向けストレージアプライアンス「Hitachi Content Archive Platform」が重複排除機能を備えているが、これはブロックレベルではなくファイルレベルで重複を検知・削除するシングルインスタンス方式を採用したもの。同様の手法を採用したストレージには、EMCのNAS装置「Celerra」シリーズがある。EMCのCelerraでは、シングルインスタンスの重複排除と圧縮機能により、40〜50%のデータ容量が削減できるという。

 一方でネットアップのように、バックアップやアーカイブのデータだけでなく、プライマリデータも重複排除できる機能を用意しているベンダーもある。ネットアップでは、同社のストレージOSであるData ONTAPに重複排除機能を統合しており、圧縮機能と合わせたストレージ利用率の効率化を図っている。

 現状では、バックアップやアーカイブ用途が中心の重複排除機能だが、その範囲はNASのようなファイルレベルのストレージにも広がりつつある。

ディスクとテープの「一長一短」

 ストレージの圧縮や重複排除の機能を紹介したところで、バックアップまたはアーカイブ目的のストレージについて少し考えてみたい。バックアップというと、これまではテープへの保存が一般的だった。アクセスがほとんどない保管期限内のデータを保管するためのアーカイブ目的でも、テープが使われてきた。この現状は、今でも大きく変わっていない。

 ただし、テープではなくディスクを選択するケースも増えている。ディスクの低価格化に伴い、テープの代わりにディスクへのバックアップやアーカイブを勧める風潮もある。しかし、ディスクはテープよりも本当に優れているのだろうか。

 ディスクが優れている点として挙げられるのは、パフォーマンスの高さ。ランダムなアクセスが可能でデータを高速に検索して読み出せることである。したがって、事業継続性向上を目的にバックアップデータを高速にリカバリしたり、アーカイブデータの検索性を高めたりするためには、ディスクが向いていると言える。また、運用管理の手間もテープに比べてかからない。

 一方で、テープが優れている点も数多くある。第一にコスト面の優位性だ。保存できる容量単価が優れているだけでなく、ハードディスクのように常時モーターを回転させる必要がないため、運用時の消費電力も少ない。また、メディアをドライブから取り外して持ち運べるので、データの遠隔地保管も容易だ。

 ディスクとテープにはこのように一長一短があるので、最近は両者をうまく併用することが望ましいとされている。これがストレージ階層化につながる考え方だ。つまり、リカバリする可能性が高い直近のバックアップデータ、検索する可能性が高い1年以内のアーカイブデータなどはニアラインストレージと呼ばれるディスクに保存しておき、それ以降のデータをテープに退避しようというわけだ。テープの運用は、人手によるオペレーションミスを回避して手間を軽減するために、ライブラリ装置を利用すればなお良い。バックアップやアーカイブが目的であったも、ディスクかテープかどちらかというのではなく、両方を上手に組み合わせることが最適解だといえよう。

ミッドレンジ以下を対象としたテープライブラリ製品なら、オフィスビルへの設置も現実的。写真はすべて富士通のETERNUS LT250。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ