News 2002年10月25日 09:34 PM 更新

大量の階層型データが一目で分かる――IBM基礎研の新しい情報可視化手法

日本アイ・ビー・エム東京基礎研究所(TRL)が開発した新しい情報可視化手法が、ビジュアリゼーションカンファレスで紹介された

 世の中には、階層化されたデータがあふれている。なじみ深いところではPCのファイルシステムがあるし、Yahooのようなカテゴリ分類型の検索サイトもそうだ。会社の人事組織なんていうのも、階層構造で成り立っているものの1つだ。

 だが、上位階層から下位階層にたどっていく階層構造は、データの傾向や分布など全体像がひと目で分かりづらいのが欠点だ。特にデータ量が数千、数万と増えるに従って、その欠点は顕著になってくる。

 10月25日に催された「ビジュアリゼーションカンファレス」の講演で、日本アイ・ビー・エム東京基礎研究所(TRL)の伊藤貴之氏が、階層型データの全体像を一望できる新しい情報可視化手法「データ宝石箱」を紹介した。


日本アイ・ビー・エム東京基礎研究所の伊藤貴之氏

 「“宝石箱”と言っているが、宝石店のショーケースがイメージに近い。ショーケースには、さまざまな宝石が色どりよく、かつ分かりやすく区分けされており、さらにそれらが一望できるようになっている。このショーケースのイメージで、手元にあるデータをPCの1画面にワッと広げて、データ全体を見渡せるようにした」(伊藤氏)。

 仕組み自体は、意外と簡単だ。

 例えばPCでは、Cドライブの中にWINNTフォルダがあり、またその中にsystemフォルダがあるといった「入れ子構造」になっている。データ宝石箱でも、入れ子状に配置された長方形によって階層型データを表現。ドットで表された個々のデータは、その内容別に宝石のように色分けされている。この長方形群をできるだけ小さな占有面積で配置することで、限られた画面空間に大規模な階層型データを表すことができるというわけだ。


階層型データを入れ子状の長方形群で表現

 このように占有面積を最小化するように入力形状群を配置する最適化は、VLSI回路の基板配置や板金・服飾型紙への部品配置などの用途ですでに使われている古くからの手法だ。しかし、大量データの際には数分から数時間という長い計算時間を要することが多く、瞬時にデータを一望することは難しかった。

 「最適解でなくてもいいから、ある程度良好な配置結果を短時間に算出するアルゴリズムを採用した結果、スケーラビリティに優れたシステムとなった。CPUクロック933MHzのPCを使って、6000個弱のデータを約2.5秒で1画面にスッポリ収めることができる」(伊藤氏)。

 伊藤氏はこのデータ宝石箱を、Webサイトのアクセス分布の視覚化に応用した事例を紹介した。

 この事例では、Webサーバに蓄積されるアクセスログファイルを入力データとし、アクセスログからURLを抽出して、そのディレクトリ階層を参照してWebページの階層型データを構築。これをデータ宝石箱で1画面に配置する。サイト閲覧者のアクセス傾向を視覚化するために、アクセス数など属性を集計した棒グラフを作成。このようにして、アクセスログの特定の属性に対するアクセス分布が、サイトマップ上で一望できるのだ。

 「開発したこのツールをTRLのサイトで1週間使ってみたところ、1日だけアクセスが急に伸びた日があった。この原因を調べるために1時間単位に色分けして、1時間分のアクセスログデータ(2000ページ)を棒グラフで表現したところ、たった1時間ですべてのページが閲覧されたディレクトリが1つ発見された」(伊藤氏)。

 このディレクトリは、TRLが提供しているオープンソースのAPIリファレンスのページだったという。このようなページには、短時間にシラミつぶしに調べるといった熱心なユーザーがアクセスしてくる。つまりこれが、アクセス数が跳ね上がった原因だったというわけだ。また、新聞などメディアに紹介されたために、1ページだけ突出してアクセスがあったページも、データ宝石箱を使えば一目瞭然となる。


Webサイトのアクセス分布を視覚化。短時間に全ページアクセスされたディレクトリや、アクセスが突出したページが一目瞭然となる

 「そのほか、システムの設計支援や運用管理に応用して、リアルタイムに問題箇所を検出することも可能になる。また、テキストデータを視覚構造化することで、このニュースとこのニュースは関連性があるといった現象を発見したり、検索エンジンで的確な検索結果を導き出すためのインタフェースなどにも応用できるかもしれない」(伊藤氏)。

 データ玉手箱を使って、2万人いるIBMの社員の人事を属性にした階層型データ構造を作成し、社員番号で色分けしたところ「ここの部署はオッサンばかり、またある部署は若い人ばかりという社内の年齢分布が分かった。本当はTOEICのデータなんかも入れたかったのだが、とても全員分は手に入らなかった」といった笑い話も披露した伊藤氏。講演後に実用化のメドをたずねたところ、現在伊藤氏を含めこのプロジェクトのメンバーが皆、別の仕事で手が一杯となり開発が進んでいないとのこと。「ただし、開発を止めたわけではない。いつの日か、なんらかのカタチで実用化したい」(伊藤氏)。

関連リンク
▼ 日本IBM東京基礎研究所

[西坂真人, ITmedia]

Copyright © ITmedia, Inc. All Rights Reserved.