メディア

優良企業はなぜHadoopに走るのか：Hadoop World Report

オープンソースの大規模分散データ処理システム「Hadoop」の人気がうなぎ登りだ。Yahoo!やAmazon、FacebookといったIT業界の巨人たちだけでなく、VISAやJP Morganといった有名企業までHadoopにコミットを示している。先日開催された「Hadoop World」には、そうした企業の熱気が満ちていた。

» 2009年10月15日 08時00分公開

[鵜澤幹夫，ITmedia]

　米国時間の10月2日、米国・ニューヨークにて「Hadoop World」が開催された。Apache Hadoopといえば、Googleの基盤ソフトウェアであるGoogle File System（GFS）と、MapReduceのオープンソース実装。もともとはApache Lucheneを分散化させるために作られたプロジェクトだったが、現在は単独のプロジェクトとして開発が進められ、多くの開発者の注目を集めるソフトウェアに成長した。

　今回開催されたHadoop Worldの主催者はCloudera。Hadoopをエンタープライズ向けに提供することを目指すこのベンチャー企業には、Apache Hadoopプロジェクトの先鞭（せんべん）をつけたドン・カッティング氏が米Yahoo!から移ってきており、注目を集めている。加えて、Yahoo!やAmazon、FacebookといったHadoopを利用する大手企業が脇を固め、さらに、VISAやJP Morganといった名の知れた企業もHadoopにコミットを示す大規模なカンファレンスとなった。

　Clouderaの説明によると400名以上のエントリーがあるということで、増え続けるデータを効率よくハンドリングするための仕組みとしてRDBに変わる選択肢をMapReduce型のHadoopに求める動きが出てきていることが分かる。また、今回のカンファレンスには日本からの参加者も何人か見受けられ、国内における注目度も今後高まりそうだ。

新しいクラウドモデルの模索、各社の意図

　午前中のジェネラルセッションでは、Amazon、Facebook、Yahoo!といった、まさにHadoop Worldにおける大御所が立て続けにステージに上がり、それぞれにおける取り組みについて語るという展開になった。注目すべき点は、それらの企業が、Elastic HadoopやHive、Pigといったテクノロジーを提供しながら、ユーザーとしてHadoopに依存しているという点である。

　また、午後のアプリケーショントラックにおけるJP Morgan Chaseのセッションでは、もう、特定のデータベースベンダーに、膨大なライセンス料を支払う時代ではないという趣旨の発言があった。そこにユーザーとしてのIBMや、Amazon、VISA、eBay、New York Times、Facebook、Yahoo!などが加わる顔ぶれをみると、無限のスケールを持つクラウドストレージという領域を、オープンソースがリードしている状況が実感できる。

　このMapReduceフレームワークの領域には、MicrosoftのDryadもあるが、Windows Azure Platformにおける具体的な姿は、まだ見えてこない。つまりHadoopにおいては、商用ソフトウェアが開拓した領域をオープンソースが塗り替えていくという、例えばInternet ExplorerをFirefoxが追いかけるような状況とは、まったく正反対の展開をみせているわけである。これほどまでに、オープンソースが新しい領域をリードしていくという展開は、恐らくはじめてのことだと思われる。

　さらに言えば、複数のHadoopコントリビューターたちが、相互に補完する環境を平行して構築するという形態もはじめてのことである。そして、それぞれのコントリビュータたちはユーザーでもあり、ペタバイトオーダーのデータ分析という、きわめて慎重な検証が求められる領域でのノウハウをも共有し、それぞれの運用モデルに裏づけられた新しいクラウドモデルをリードしようとしているのである。

ペタバイトオーダーのデータ分析におけるRDBモデルとMapReduceモデルの対比

　ペタバイトオーダーのデータ分析といっても、なかなかイメージできるものではないが、例えばyahoo.comのフロントページでは、Search Indexや、AD Optimize、RSS Feed、Content Optimization、Spam Filterなどのために、数ペタバイトのデータが日々分析されているという。その中で用いられるDatabase for Search Assistで、3年分のログデータを分析する際の、RDBモデルとMapReduceモデルの興味深い対比が紹介されていたので、ここで簡単に紹介する。


	RDB	MapReduce
分析に要する時間	26日	20分
開発言語	C++	Python
開発期間	2～3週間	2～3日

　ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。

　また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。

　これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要するという痛みを抱えていたが、それが一挙に解消されたわけである。そして、Yahoo!における数ペタバイトのデータが数十ペタバイトに膨れ上がっても、あるいは、VISAにおける数十テラバイトのデータが数百テラバイトに増大しても、新たなノードを追加することで、リニアなスケールアップを約束しているのがMapReduceである。

　MapReduceはGoogle Searchの基本的なテクノロジーとして誕生したが、Hadoopとしてオープンソース化されたことで、Yahoo!やVISAにおける大規模なログ解析という分野にも応用できることが証明されたといえる。そのほかにも、検索エンジンのようにWebから集めたデータを、特定の業務分野のために解析するような大規模分散データ処理モデルも存在しており、その応用分野も広がっていくと予測される。

　この分野における、もう一方の勢力であるDryadはBingのエンジンであると予測され、Windows Azure Platformの一角を占めるものになると推測される。そうなると、Amazon HadoopサービスであるElastic MapReduceと競合することになり、主だったクラウドプラットフォームにおけるペタバイトオーダーのコンピューティングが現実のものとなっていく。このホットな領域から、目を離すべきではないだろう。