「高速データウェアハウス」に隠された仕組み――日本ネティーザ

データウェアハウスアプライアンスを提供する米Netezzaの日本法人、日本ネティーザのダグラス・エッツェル社長に話を聞いた。

» 2005年12月20日 10時22分 公開
[怒賀新也,ITmedia]

 ERPなどの基幹システムの構築によって企業が蓄積した膨大なデータを、実際の企業活動でより積極的に活用しようというニーズは、ビジネスインテリジェンスやCPM(コーポレートパフォーマンスマネジメント)への注目度が上がっていることと併せて、次第に高まっている。だが、それを実現するためのデータウェアハウスは、複雑な処理を伴うためにパフォーマンスの確保が難しいことが問題点としてあった。

 それを、「10〜50倍のパフォーマンスで」解決するとアピールするベンダーが米国のNetezzaだ。同社は、2000年秋に米ボストンで設立され、今年の9月には日本法人として、日本ネティーザが立ち上がった。日本法人のダグラス・エッツェル社長に話を聞いた。

過去10年近くの日本生活でネイティブに近い日本語を話すエッツェル社長

 同社が提供する「Netezza Performance Server」は、データベースソフトウェア、サーバマシン、ストレージが一体となったもので、データウェアハウスアプライアンスとエッツェル氏は表現している。アプライアンスは、もともと米国で家電製品を指す言葉として広く使われていたものをIT製品にも使うようになったいきさつがあるが、同製品も、箱を開けて取り出せばすぐに使える点が特徴として挙げられている。

 Netezza Performance Serverを実際に利用しているユーザーには、米Amazon.com、Cingular Wireless、CNET Networksなど、日本でも名前が知られる企業が含まれており、現在、30社70セット以上の導入実績がある。

 そして、同製品の利用が想定される具体的なケースとして、金融機関によるATMを利用した取引や、クレジットカードを利用した取引の増加によって、企業が抱えたデータを分析したり、次の戦略に生かしたりする場面が挙げられる。こうしたケースにおける要件を満たそうとしたとき、別々のデータベース、ストレージ、サーバマシンを組み合わせて構成する従来の情報システムでは、システム間連携がボトルネックになるため、パフォーマンスに限界があるという。そこで、これらの製品の物理的な距離を縮める新たな手法で開発されたのがNetezza Performance Serverだ。

 Netezza Performance Serverを既存製品にたとえると、シャーシを含めたブレードサーバシステムに近い。具体的には、SPU(スペニットプロセッシングユニット)と呼ばれる1枚のブレードサーバ上にHDDが搭載され、データベースのレコード管理や分析を行う専用のロジックがハードウェア上に搭載されている。同製品のパフォーマンスの高さを実現しているのもこの構成に秘密がある。

 ここで、分析処理を並立的に実行するために、Netezza Performance Serverに入力された大量の処理データは、データにひも付いたフラグに沿って、シャーシに格納された複数のSPUに分配される。

 これにより、データウェアハウスにおける複雑な処理が、小分けされる形で多数の処理単位に分けられ、さらに、分割された各処理も、HDDをベースに高速処理を実施することができる。そのため、データ連携のために大量のデータをネットワーク上で往来させる必要がなくなり、結果として、高速なシステムを構築できるわけだ。

 ここで気になる点として、既存システムとのインタフェースの問題が挙げられる。これについて、同製品は、ODBCやJDBCといった標準技術に準拠しており、「既存のBI環境と容易に統合できる」(同氏)としている。OSにはRedHat Linux Advanced Server 2.1、バックアップおよびリカバリソフトではLegato、Tivoli、Veritasとの連携、Netezza Performance Serverへの移行が可能なデータベースおよびデータウェアハウスとしてOracle、SQL Server、DB2、Teradata、Informix、RedBricks、Sybase IQ、MySQLが挙げられている。アプリケーションに関しても、CognosやBusinessObjects、Hyperion、SAS、Microstrategyなど、BI大手の製品との統合が可能としている。

 同製品は、アプライアンスの特徴を生かすため、テーブルサイズやRedo/物理ログ、Extent、テンポラリーテーブルスペースの設計や管理、インデックス管理、RAID構成、ファイルシステムの定義、OSの管理やパッチの適用なども不要であるため、管理に掛かる手間やコストを大幅に削減できる点もアピールポイントになっている。

 だが、ハッシュを使用した初期分散設計やテーブル統計情報の更新などは必要な作業だ。特に、大量の処理対象データを、各SPUに効率的に振り分ける際のロジックの設計は、慎重に行う必要があるとしている。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ