財宝は見つけることができるか? WebFountainの深淵を覗く

IBMのアルマデン研究所では、WebFountainと世ばれる次世代の検索技術の開発が行われている。Web上の構造化されていないデータからトレンドをつかむことができる同技術は、主に企業からその登場が熱望されている。

» 2004年07月23日 23時52分 公開
[西尾泰三,ITmedia]

 IBMリサーチを構成する研究所のひとつに、アルマデン研究所がある。シリコンバレーを見下ろす山の上へ車を走らせると、その建物が姿を現す。

 IBMリサーチではアルマデンのほか、インド、中国、イスラエルなど、世界各地に8つの研究施設を持つ。このうち、アルマデンではIBMのデータベースに関する研究をメインとしており、ここでWebFountainプロジェクトも進められている。

WebFountainとは?

 WebFountainとは、簡単に言ってしまうと、インターネット上の膨大なデータを収集してデータマイニングの材料にするもので、検索エンジンとBIツールの組み合わせたようなシステムである。

 その特徴は、いわゆる構造化されたデータだけでなく、Blogや掲示板など、非構造化データも扱えることにある。サイトをインデックス化し、そのページ内のすべての単語にXMLでタグを付加することで単語固有の構造を明らかにし、相互の関連性を分析する、というのが流れとなる。ちなみに現在のタグの数は30億以上とも言われている。

 このタグをつけるという作業の基盤となるのが、「自然言語処理」(NLP)といわれるテキストマイニング技術である。こうした技術では、「どのようにタグの内容を洗練するか」が問題となるが、WebFountainでは、NLPを使うことで、この部分を自動化しようとしている。また、言語についても、unicodeを用いることで、英語圏以外のWebページについてもマイニングが行えるように作業を進めているところだ。

ブレードサーバを使った大規模なクラスタ構成

 その処理能力も驚くべきスペックとなっている。アルマデンの中に存在するサーバルームを見ると、Xeon3GHzを2個搭載したブレードサーバ「HS20」が256台クラスタ構成で設置されている。ブレードサーバに変更したことで、より高密度にプロセッサを追加できるとしている。

サーバルーム サーバルーム。多数のラックの中にブレードをはじめ多くのサーバやストレージが格納される

 またストレージは160Tバイトを有し、この中に2.5Pバイトものデータが圧縮されて格納されている。ちなみにOSはRed Hat Linuxが採用されている。

 驚くのは、このクラスタ構成が月単位でまだまだ拡張されるということだ。前述のスペックは先月のものであるとし、今月はブレードサーバの数を540台にまで、またストレージを640Tバイトまで拡張するという。

 このシステムは17時間をかけてインターネット上のWebページ――それが構造化されたものであろうが、Blogなどのように非構造化されているかどうかを問わず――をクローリングし、データを蓄積する。17時間という時間はある程度のキャッシュを持つからこそ可能な時間だ。

 ちなみに、サーバルームの温度もすごい。普通の一般住宅で30軒分まかなえる冷却設備を6台完備していても、すこしムワッとした感じを受ける。サーバラックは5メートル程度の間隔を空けて配置しているのも熱対策のためだ。

WebFountainが狙うもの

 WebFountainが狙うのは、一般的なBIツールのように、企業内のデータだけを扱うのではなく、ネット上にある膨大なコンテンツに対して分析を行うことにある。

 Web上のトレンド分析の例として、IBM WebFountainチーフ・アーキテクト、ダン・グルール氏は次のように話す。

「ある日、『宇宙の色は何色だろう』と同じ感覚で『Webの色は何色だろう』と知りたくなったんだ。だから、WebFountainを使って調べてみると、各国ごとにWebページで使われる色に特徴があることが分かった。例えば、日本なら赤・黄・オレンジを基調とした色使いが多いし、ドイツならブルー、韓国なら白といった具合にね」

IBM WebFountainチーフ・アーキテクト、ダン・グルール氏。ちなみに、写真には写っていないが、同氏の横には、サイコロのような形状のコンセプトサーバも置かれていた。

 こうしたWeb上におけるトレンド分析にいち早く興味を示したいくつかの企業がすでにWebFountainを使っている。例えばSemagixという企業では、自社のマネーロンダリング対策ソフトCIRAS(Customer Information and Risk Assessment System)にWebFountainを統合した。これにより、Web上の膨大な情報と顧客情報とをリンクさせることが可能になり、違法なマネーロンダリングの疑いがある取引を発見することが可能になるという。

 また、インフォメーションプロバイダーのFactivaも、WebFountainを利用するアプリケーションの開発を進めている。同社の「Factiva Insight」は、企業に対する評価をトレンド分析するアプリケーションだ。

 いずれにせよ、これらのデータを扱うためのハードウェアを1企業でそろえるのには無理がある。そのため、IBMではこれをWebサービスとして提供するつもりだ。これは同社が進めるユーティリティコンピューティング構想によく合致したものとなる。

 WebFountainの検索技術のルーツをたどると、意外にもGoogleとの接点がある。両者のルーツは、スタンフォード大学とアルマデン研究所の共同研究の結果誕生した、「ハブとオーソリティ」の概念をテーマとする学術論文にまでさかのぼることができる。

 しかし、両者の検索に対する概念は現在ではかなり距離がある。Googleなどの検索技術と違って、WebFountainから得られるものは構造化されていない情報のトレンド分析である。非構造化データの中にこそ、本当に興味のあるデータが眠っているというのがWebFountainの考え方だといえる。

 サイトの人気度ではなく、コンテンツ自体の価値に重きを置いた検索技術は、莫大な情報が氾濫するインターネット上における新たな道しるべとして活躍する日も近いかもしれない。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ