次の問題は「収集の技術的方法論」だ。
データを単にコピーすればいいのなら楽だが、実際にはそうはいかない。
ネットで公開される情報は何らかのサーバの上で、公開するためのシステムを介して公開されている。WebだったらWebサーバ、ということになるが、実際にはWebサイトの構築方法にデータ形式は依存する。昔のシンプルなHTMLのWebサイトなら簡単だが、現在はそうはいかない。
どんなCMS(コンテンツ・マネジメント・システム)を使っているのか、そのバージョンはどうか、ということも影響してくるので、「いつの時期のWebサイトを保存して再現するのか」も課題となる。
商業的なメディアで「あとにも記事を残す」ことを意識している場合には、CMSがバージョンアップしても記事が読める形が維持される。SNSについても、サービスが継続されている場合、ログは変換されて読むことはできる。Twitterでは東日本大震災当時のツイートを今でも読めるが、それはサービスが継続しており、サービサー側にログ継続の意思があるからである。
では、サービスが継続していかない場合、どう残すのだろうか? さらに言えば、残したものを先々どう「読める形でメンテナンス」するのだろうか?
文章のような、比較的静的な情報はまだいい。もとの形式にこだわらず、何らかの形で「読める」ように変換して蓄積することもできるだろう。
これが動画メディアだったらどうだろう? データは膨大な大きさになる。CGM(コンシューマー・ジェネレーテッド・メディア)の場合だと、容量そのものが大きなハードルになる。CGMは玉石混交であるところが課題だ。「玉」だけ残せば話は楽なのだが、世情を残すには「石」こそが重要になったりもするし、そもそも玉石の判断すら、時代によって変わってくる。
アプリケーションになるとさらに面倒だ。OSによっても、その上で必要になる細かなモジュールについても、環境が揃っていないとソフトは動かない。仮想化環境を作り、エミュレーターも併用し、それぞれの時期のOSを用意して……というやり方をすれば「ソフトが動く環境」を残すことはできるが、ハードウェアの違いは吸収できない。ハードウェアはどんどん壊れていき、メンテナンスしたとしても、長く完全に残すことはできない。ここでも「どういう形で残すのか」という課題が出てくる。
そうした技術面での課題を誰がどうハンドリングするのか、その点こそが大きな課題だ。
さきほど「商業的なアプローチの方が有利では」と書いたのはそのためだ。技術的な要素を常に検討し続けるには優秀な人材が必要で、そういう人にはちゃんとした報酬を用意する必要がある。公的な機関でそれを長く回せるならそれに越したことはないが、商業アプローチはうまく回しやすい。
もちろん、商業アプローチが回らなくなった時の受け皿としての公的アプローチも必要であり、相互補完的な役割を果たせるといいのだが。
最後の課題が「リソース」だ。
容量の大きなデータを守り続けるには、相応の設備と運用費用が必須になる。「デジタルだとデータは簡単に壊れる」と言われる。その通りなのだが、「決まった媒体での永続保存」が現状難しいのであり、動き続けているシステム上でバックアップしつつ進めるなら信頼性は担保できる。
ただ、そのためには設備と費用が必要になる。それをどう担保するのかが課題だ。
データは日々増え続け、減ることはない。技術の進歩により容量当たりの消費するエネルギーと設置面積、運用コストは下がり続けてはいるのだが、上昇ペースは圧倒的であり、技術の進歩を凌駕している。
消費エネルギーも含め、保存にどれだけのリソースを投下できるのか、ということが、最終的には最大のテーマになるだろう。
情報保存の範囲・量・形態・制度など、グランドプランの構築が必須であり、その議論に則った上で各論を考えなくてはならない。
それを誰が、どう音頭をとって進めるのか。最初に進めるべきはそこを決定することなのかもしれない。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR