オープンソースのデータウェアハウスシステム「CloudBase」

米Business.comが公開したオープンソースのデータウェアハウスシステムは、HadoopのMap-Reduceを実装することで、ANSI SQLを利用してフラットログファイルに直接クエリを実行できる。

» 2008年11月26日 15時59分 公開
[末岡洋子,SourceForge.JP Magazine]
SourceForge.JP Magazine

 企業ディレクトリサービスの米Business.com(米R.H. Donnelley Interactive傘下)は米国時間の10月24日、「Hadoop」ベースのオープンソース・データウェアハウスシステム「CloudBase」を公開した。ANSI SQLを利用して、フラットログファイルにクエリを実行できる。SourceForge.net経由でダウンロードできる。

 オープンソースの分散コンピューティング技術であるHadoopのMap-Reduce実装を利用して、フラットログファイル上にデータベース抽出層を構築した。これにより、ANSI SQLを利用して、Webサイトなどのフラットログファイルに直接クエリを実行できる。複雑なリレーショナルデータベースクラスタなしにログデータを分析できるという。

 当初、Business.comなど自社サイトのWebログ分析を高速化するツールとして社内開発した技術という。今回、SouceForge.net経由で、GNU General Public License v2の下で公開した。

 今後、ログパーシングの強化、ORDER BYやTOP Nの最適化などの機能強化のほか、パブリックソースコードレポジトリ、Wikiなどコミュニティー向けの機能も提供するという。

編集者の一言

Googleの大規模データ処理基盤技術である「Google File System」(GFS)や「MapReduce」をオープンソースで実装したHadoopは、米Yahoo!にも採用されるなど話題の技術ですが、このHadoop上にDWHを構築してしまおうというのがCloudBaseだ。SQLが利用可能なところも使い勝手がよい。今後ますます増えるであろうデータをいかに活用するかを考えたとき、Hadoopは今以上に人気を集めそうです。(西尾泰三)


Copyright © 2010 OSDN Corporation, All Rights Reserved.

注目のテーマ