オープンソースのデータウェアハウスシステム「CloudBase」
米Business.comが公開したオープンソースのデータウェアハウスシステムは、HadoopのMap-Reduceを実装することで、ANSI SQLを利用してフラットログファイルに直接クエリを実行できる。
企業ディレクトリサービスの米Business.com(米R.H. Donnelley Interactive傘下)は米国時間の10月24日、「Hadoop」ベースのオープンソース・データウェアハウスシステム「CloudBase」を公開した。ANSI SQLを利用して、フラットログファイルにクエリを実行できる。SourceForge.net経由でダウンロードできる。
オープンソースの分散コンピューティング技術であるHadoopのMap-Reduce実装を利用して、フラットログファイル上にデータベース抽出層を構築した。これにより、ANSI SQLを利用して、Webサイトなどのフラットログファイルに直接クエリを実行できる。複雑なリレーショナルデータベースクラスタなしにログデータを分析できるという。
当初、Business.comなど自社サイトのWebログ分析を高速化するツールとして社内開発した技術という。今回、SouceForge.net経由で、GNU General Public License v2の下で公開した。
今後、ログパーシングの強化、ORDER BYやTOP Nの最適化などの機能強化のほか、パブリックソースコードレポジトリ、Wikiなどコミュニティー向けの機能も提供するという。
編集者の一言
Googleの大規模データ処理基盤技術である「Google File System」(GFS)や「MapReduce」をオープンソースで実装したHadoopは、米Yahoo!にも採用されるなど話題の技術ですが、このHadoop上にDWHを構築してしまおうというのがCloudBaseだ。SQLが利用可能なところも使い勝手がよい。今後ますます増えるであろうデータをいかに活用するかを考えたとき、Hadoopは今以上に人気を集めそうです。(西尾泰三)
関連記事
- 米Ingres、オープンソースRDBMS「Ingres Database 9.2」をリリース
米IngresはオープンソースのRDBMSの最新版「Ingres Database 9.2」をリリースした。実に2年ぶりのメジャーバージョンアップで、バックアップと復旧機能などの機能が強化されている。 - Hadoopを用いたクラスタコンピューティング環境の構築
ペタバイト規模のデータを格納させる分散コンピューティング用プラットフォームを探しているのであれば、安価かつ効率的でスケーラビリティと信頼性を兼ね備えたプラットフォームであるHadoopの使用を検討すべきだろう。 - オープンソース分散システム「Hadoop」の解析資料が公開
Googleの基盤ソフトウェアであるGoogle File SystemとMapReduceのオープンソース実装「Hadoop」の実用性を評価した解析資料が公開された。
関連リンク
Copyright © 2010 OSDN Corporation, All Rights Reserved.