第5回 ファイルがなくなる? データの配置や保存の仕組みがどうなるかクラウド社会とデータ永久保存時代の歩き方(1/2 ページ)

これまではクラウド社会で大きく変わりつつあるデジタルデータの扱い方、その注意点について話してきました。今回からはIT側から見た理想的なデータ保存形式について解説していきます。

» 2015年11月18日 07時30分 公開

この連載は……

 ストレージ技術は、クラウド/IoT時代を迎えて大きく役割を変えつつあります。

 様々な「非構造化データ」が無秩序に保存されてゆき、さらにかなり長期に保存する必要が出てきました。実は最新のデータセンターにおいてもデジタルデータの長期保存は大きな課題で、様々な新しい技術、新しい管理方法が考えられてきています。これはごく身近な個人のデータもそうです。スマホで撮った写真や動画、家族とのやりとりや記録、日記的メモやSNSのログなど、これらはいわばライフログ(人生の記録)になりつつある自分だけの大切なデータです。これらを数十年、百年単位で残していくにはどうすればよいのでしょう。

 この連載は「そのようなビッグデータ時代に最適なストレージとは何か」がテーマです。今後、トランザクションデータとアーカイブデータの二極化が起こります。特に無秩序に途方もない量のデータが生成されるこれからの時代には、低コスト、低消費電力、高拡張性、高検索性のストレージが求められます。そんな課題の解決方法を、最新IT技術も交えてできるだけ分かりやすく解説していきます。


ビッグデータで限界を迎える「ファイル形式」

 2020年には40ゼタバイトを超えるといわれるデジタルデータ。そのほとんどは“非構造化データ”になると言われています。非構造化データと聞いても分かりにくいと思いますが、例えば容量の大きい代表的な非構造化データには、スマートフォンでも高解像度化が加速している画像データや、2020年の東京オリンピックでデモンストレーションが予定されている8K放送(7680×4320画素の超高精細映像)などがあります。画像などデータを添付して送れるメールデータなども、非構造化データです。読者の皆さんの端末にもこうしたデータが増えてきていませんか。

 いろいろな種類のデータがあるのでファイル、フォルダの名前の付け方、階層構造、管理ルールは、あっという間に陳腐化してしまいます。結局検索ツールを使うのですが、これには結構な時間がかかります。最近ではフラッシュを使うようになって、いくらか我慢できるようになりましたが、HDD時代には本当にストレスでした。これと同じようなことはクラウドでも起きるのです。

Webスケール時代のストレージの形とは?

 さまざまな様式のデータが、どんどん生み出される時代のデータストレージには何が求められるのでしょうか。いろいろある中でも以下の3つの要求が特に重要と考えています。

data Webスケール時代に予想されるデータのカタチ

1.大容量・低コスト

 前述しましたように、デジタルデータは予想も困難なほどすさまじい勢いで増殖しています。一方ではパブリッククラウドの代表格、Amazon Web Services(AWS)のS3に代表されるストレージサービスも年々低コスト化しています。すなわち、「大容量、低コスト」化が容易であるかどうかが、今後のWebスケール時代の重要なポイントになります。

 パブリッククラウドでは従来型のストレージはなく、汎用サーバを並列に配置して、数で冗長性などを実現しています。当然ながら、汎用サーバのコストが高いと意味はないのですが、最近はプロセッサのマルチコア化、SSDを搭載した記録装置の低価格化により、汎用サーバを大量に使用しても、従来のストレージシステムより安くなることがほとんどです。さらに大容量化が進むと、その差は歴然としてきます。

2.拡張性と冗長性

 ここでいう拡張性は、データストレージとしての拡張性です。従来のファイル方式は、現代のようなWebスケール、つまり世界中で大量のデータが生成され、さらに利用されるような拡張性を考えたものではありません。

 例えば、世界各地のデータセンター越しへデータを簡単に分散配置する、といったことにはファイルストレージは向いていません。またファイルシステムは、ツリー型階層構造で深い階層へのデータのアクセスに時間がかかります。これはツリー型のファイルシステム構造の宿命でもあります。

 この構造は従来の電話回線のつながり方に似ています。つまり途中の一部が切断されると、通信ができなくなる構造です。それよりも冗長性の高い通信技術として発明されたインターネットのような構造がこれからの時代には向いていると考えられます。分散システムのようなものはデータをフラットに配置でき、さらに同じデータが分散配置されるので、無駄なオーバーヘッドがなく、スムーズなアクセスが可能になりますし、障害時のデータへのアクセス率も高くなります。

data データの配置は深いところにではなく、フラットになっていく

3.多様性

 多様性とは、これまで以上にさまざまな種類のデータを保存でき、さらに制約なく読み出せるということです。現在のファイルプロトコルには代表的なNFSとCIFSの2つがあり、それぞれに制約があります。例えばファイル名の長さ、使用するキャラクター、ファイルの最大容量などですが、メタデータの制約も同じようにあります。タイムスタンプの定義や、アクセス制限などがそれに当たります。

 このメタデータとはどのようなものでしょうか。簡単に解説すると、データは単純に「0」か「1」の羅列に過ぎません。それをどのように解釈し、意味を持たせるのかということを定義するのがメタデータです。例えば「pdfのフォーマット」で「どのバージョン」であるという情報があれば、単なるデジタルの「0」と「1」の文字の羅列がちゃんとコンピュータで読める画像になるということです。もちろんこのメタデータはそれだけではありません。皆さんも慣れ親しんでいる文書アプリや帳票アプリなども、ファイルにカーソルをあてると、様々なデータが表示されますよね。作成日時や編集日時、容量などもメタデータです。

 デジカメの標準フォーマット「EXIFフォーマット」には、撮影日時だけでなく、GPSの位置情報なども記録されます。スマホのGPSをONにしていると、自分の移動先や行動形態がすべて分かるといったことも、このようなメタデータのフォーマットが関係しているわけです。スマホの世界では、これからもさらに新しいサービスが続々と出てくるのは間違いないでしょう。今後ウェアラブルデバイスや小型化されたセンサーとの連携などによって、メタデータにも気温や湿度、高度といった環境データだけでなく、個人の体温、脈拍、さらにはその環境の酸素濃度や匂いといったものも加わってくれるかもしれません。そのような時代には、ほぼ無限にメタデータを拡張できるストレージの形態が好ましいでしょう。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ