キーワード検索の限界を打ち破るタイムトラベル検索よく効くエンタープライズサーチの処方箋(2/3 ページ)

» 2007年03月30日 08時00分 公開
[富永康信(ロビンソン),ITmedia]

過去に失ってきた情報群に注目

 通常の検索システムの多くは、情報の1つひとつの中身を開いて眺めながら、求めるキーワードをピックアップする、順次型の方式である。データベースの検索システムの多くは、このような順次型を採っている。

 全文検索エンジンでは、キーワードを軸にしてそれに対する文書のリスト(インデックス)をあらかじめ作っておき、そこから素早く探すことができる。索引型の検索エンジンと呼ばれるものだ。このタイムトラベル検索は、全文検索エンジンを基本として過去の検索を実現している。

 時間軸が過去から現在へと流れる中で、情報群は過去からの情報を積み重ねて大きくなっていく。だが、現在の検索エンジンは、現時点での情報群を対象に絞り込む検索しかできないことが課題だ(図2)。しかしタイムトラベル検索は、過去に積み重ね、失ってきた情報群にも注目し、過去の一時点にあたかもタイムトラベルするかのような感覚で検索をかけることができる。

図2 図2●現在の情報検索システムの抱える課題(クリックで拡大)

ストレージの知識を検索に応用

 「多くの検索エンジンでは、情報空間に対して情報学的理論で絞り込むことが主流になっている。しかし、過去の情報に対してアプローチする手法はこれまでにはなかった」と話すのは、同研究室の主任研究員で工学博士の梶木善裕氏だ。

画像 NEC システムプラットフォーム研究所 主任研究員の梶木善裕博士(工学)

 同氏は、タイムトラベル検索の技術的特徴は大きく4つあると説明する(図3)。1つ目は「時系列分割索引技術」。全文検索のインデックスを過去から現在に向かって時分割し、時系列で差分を作っていく生成手法である。過去の情報を差分としてインデックス化することで、あらゆる時系列の検索パターンに対応することができる。

図3 図3●タイムトラベル検索システムの技術的な特徴(クリックで拡大)

 2つ目は「情報更新同期技術」で、情報が生成/更新されるのと同期して、最新情報のインデックスに即座に記録される機能のこと。これにより、過去のある時点までさかのぼりたい場合は、その時点から現在までのインデックスを無視して、過去のインデックスだけを対象とした検索をかけることができる。また、期間を限定する検索も可能だ。

 仮に、そのまま過去情報のバックアップをフルに取った場合と比べ、タイムトラベル検索ではストレージを20分の1まで圧縮できるという。

 3つ目は、「過去索引圧縮技術」。比較的新しい過去情報に関しては頻繁に細かく分割することで検索の精度を向上させ、次第に古くなるにつれてインデックス同士を反映させ圧縮するといった、時系列分割の粒度を変化させる技術だ。日次単位のインデックスを、半年前は月次で、さらに数年前の分は年次や数年分まとめて圧縮して情報を削減し、妥当なコストで妥当な精度での記録が可能となる。

 そして最後の4つ目が、「過去状態再現技術」。情報自体のインデックスを管理するだけでなく、過去情報に付随する情報の時間的変化を記録する。例えば、2005年当時のあるキーワードに関する出現頻度やリンク数など、情報そのものではなくその情報がどれだけ人気があったかを示すようなランキングまでも再現する。またその一環として、情報の閲覧権限自体も過去の状態を忠実に再現でき、過去のアクセス権が不適切だった場合は、現在のアクセス権を優先することもできるようになっている。

 「長年のストレージシステムの研究から、過去方向に情報を効率的に保存するためのバックアップ技術とデータベース系の専門知識を応用することで、これらを開発した」(梶木氏)

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ