米Business.comが公開したオープンソースのデータウェアハウスシステムは、HadoopのMap-Reduceを実装することで、ANSI SQLを利用してフラットログファイルに直接クエリを実行できる。
企業ディレクトリサービスの米Business.com(米R.H. Donnelley Interactive傘下)は米国時間の10月24日、「Hadoop」ベースのオープンソース・データウェアハウスシステム「CloudBase」を公開した。ANSI SQLを利用して、フラットログファイルにクエリを実行できる。SourceForge.net経由でダウンロードできる。
オープンソースの分散コンピューティング技術であるHadoopのMap-Reduce実装を利用して、フラットログファイル上にデータベース抽出層を構築した。これにより、ANSI SQLを利用して、Webサイトなどのフラットログファイルに直接クエリを実行できる。複雑なリレーショナルデータベースクラスタなしにログデータを分析できるという。
当初、Business.comなど自社サイトのWebログ分析を高速化するツールとして社内開発した技術という。今回、SouceForge.net経由で、GNU General Public License v2の下で公開した。
今後、ログパーシングの強化、ORDER BYやTOP Nの最適化などの機能強化のほか、パブリックソースコードレポジトリ、Wikiなどコミュニティー向けの機能も提供するという。
Googleの大規模データ処理基盤技術である「Google File System」(GFS)や「MapReduce」をオープンソースで実装したHadoopは、米Yahoo!にも採用されるなど話題の技術ですが、このHadoop上にDWHを構築してしまおうというのがCloudBaseだ。SQLが利用可能なところも使い勝手がよい。今後ますます増えるであろうデータをいかに活用するかを考えたとき、Hadoopは今以上に人気を集めそうです。(西尾泰三)
Copyright © 2010 OSDN Corporation, All Rights Reserved.