高まるHadoopの導入機運、日本のHadooperが集結Hadoop Conference 2009 Tokyo Report

Hadoop Conference 2009 Tokyoに集まった日本のHadooperたち。楽天が、はてなが、NTTデータが、そのほか多くの先進的な企業がこぞってHadoopを使うのはなぜなのか。Hadoopに対する各社の研究開発がつまびらかに語られた。

» 2009年11月27日 00時00分 公開
[鵜澤幹夫,ITmedia]

ニューヨークから東京へ

 10月2日に米国・ニューヨークで「Hadoop World」が開催された時点で、11月には東京でも、という話が浮かび上がっていた。そのわずか2週間後、10月16日の金曜日にHadoopユーザー会からの開催通知メールが配信されると、週明け20日の朝には200名の定員が埋まってしまうという盛り上がりをみせ、日本のHadooperたちが胎動していることを感じさせた。

 Hadoop Conference 2009 Tokyoは、神宮球場に隣接するTEPIAで2009年11月13日に開催されたが、このカンファレンスの開催に触発されるかのような動きがあったことを指摘しておきたい。まず、Apache Hadoopのドキュメントを支援する「あしたのオープンソース研究所」が開設され、それに続いて、“NOT ONLY SQL”を指向するオープンソースプロダクトに関する議論を行うコミュニティー「NoSQL-ja」も立ち上がった。何か大きな流れが加速しつつあると感じたのは、筆者だけではなかっただろう。

 当初、この原稿は速報という形で、Hadoop Conference 2009 Tokyoの直後に書こうと思っていたが、なかなか取り掛かれずにいた。その理由は、カンファレンスの直前に発表されたAmazon Web Services(AWS)によるMySQLのサポート(Amazon RDS)や、MicrosoftとTwitterとの提携(Microsoft、BingにTwitterのリアルタイム検索機能を追加)、そしてロサンゼルスでのProfessional Developer Conference(PDC) 2009、ニューヨークでのWeb 2.0 Expo、サンフランシスコでのQCon、さらにはChrome OSの発表といった、いわばIT業界に転機をもたらすかもしれない一連の流れと、このHadoop Conference 2009 Tokyoとの、相対的な位置関係を見極めたいという思いがあったからだ。

さぁ、Big Dayだ

クリストフ・ビシーリア かつてはGoogleにいたこともあるクリストフ・ビシーリア氏。いまはHadoop普及の立役者だ

 Hadoop Conference 2009 Tokyoの開催に奔走しながら直前に新型インフルエンザで倒れ、参加すら危ぶまれれていたプリファードインフラストラクチャー(PFI)の太田一樹CTOから、Clouderaのクリストフ・ビシーリア氏が紹介され、キーノートが始まる。簡潔かつ明りょうに、Hadoopの位置付けと背景が語られ、6つの業種における主要なHadoopユーザーが紹介される。客席へと視線を移すと、ステージを食い入るように見つめる者もいれば、懸命にノートを取る者、そしてiPhoneでライブTwitterに興じる者と、スーツ姿からジーンズ姿までが入り混じり、それぞれが思い思いのスタイルでカンファレンスに集中していた。

6業種における主要なHadoopユーザー。Hadoopの利用が急速に広がっていることが分かる

 ステージでは、ClouderaからのHadoop提供の方式に改善の余地があり、また実装や管理のためのトレーニングにおいて、まだまだ満足できるサポートが行われてないという、Hadoopにおける現状での課題へとテーマが移行した。さらに、Clouderaのパートナーがまだ少数であり、より大きなエコシステムの構築が不可欠という、同社が抱える問題点もビシーリア氏は浮き彫りにしていく。

 そのために注力していく点として、Hadoopに加え、HiveやHBASEなどのプロダクトを同時に提供するディストリビューションおよび、運用管理のために自身で開発しているCloudera Desktopの提供、そしてブログやTwitterを用いた情報提供とトレーニングの充実を課題として挙げる。つまり、きわめて率直に、ユーザーである開発者たちと現状への認識を共有し、到達したい当面のゴールを定義し、エコシステムを活性化することで、ともに前進していこうと提案しているのである。

 Clouderaは、まだ設立から一年ほどしか経過していない新興の企業だが、その実力は侮りがたい。上述の超一流企業にHadoopを導入させるだけではなく、そのダウンロード数を急速に増加させ、Hadoopユーザーの裾野を広げている。講演ではApacheとClouderaにおけるダウンロード数の比較が示され、Clouderaの成果としてHadoopが台頭してきた様子が手に取るように分かった。

楽天にみるHadoopへの取り組み

西岡悠平氏 楽天技術研究所の西岡悠平氏

 今回のカンファレンスで注目されていたのは、Clouderaからの発表だけではない。楽天をはじめとする、日本国内における先進的なHadooperと目される企業が、どのようにHadoopをとらえ、また、どこまで研究や開発を進めているのかを知るために、今日のオーディエンスたちはこの場に集まってきている。

 まず、楽天の河村圭介氏が壇上へ上がり、同社の取り組みついて語った。周知のとおり、国内最大級のインターネットリテールを展開する楽天は、そのサイト内に約3万店舗を有し、4000万種類の製品を販売しているという。そして、2008年度には、4700万人の登録ユーザーを持ち、8447万件の受注を受けている。

 Hadoop Worldでも語られたeBayの事例と同様、楽天でもログ解析と、リコメンデーション、ランキングなどを目的としたHadoopの調査と研究が行われているという。それは、従来の処理効率/耐障害性/スケーラビリティ/開発生産性などの向上という、同社のブロードな方針の一環として取り組まれるもので、データ管理のためのROMAと、データ処理のためのHadoopの利用が推進されているという。

 楽天では2009年から一部の本番環境でHadoopを利用しており、従来のPerlスクリプトによる処理と比較して、580%の効率でMapReduceをこなし、26時間かかっていた処理を4時間で完了したという事例も紹介された。

 また、楽天技術研究所の西岡悠平氏による、K-Meansを用いた集合知プログラミングのために、Hadoopの調査/研究が進められていること、そして、2000万件のデータが17時間で処理されたという事例が紹介された。

 そのために、MapReduceに薄皮をかぶせるフレームワークとして「POJO Hadoop」を開発し、PigやHiveといった別の概念を学習することなく、開発生産性の向上に成功しているという。そして、誰もが気になる、Hadoopの有効性が得られるデータサイズの臨界点として、数百Mバイトと数Gバイトの間にラインが引かれるという見解も紹介された。

そしてあしたへ

 そのほか、はてなにおけるHadoopの利用とScala on Hadoopの取り組み、BlogeyeによるAmazon Elastic MapReduceでの事例、大手システムインテグレーターであるNTTデータの取り組み、ネットワンシステムズからのHadoop World 2009のリポート、TelaniumにおけるHbaseの詳細説明などが壇上を賑わした。誰もが、何を飾るでもなく、等身大の話をしているのが印象的であった。

 クロージングとして、ビシーリア氏が再び壇上へ戻ると、キーノートで概説したCloudera Distribution for Hadoop(CDH)について、その詳細が説明された。これまでのCDH1で提供されていたHadoop/Hive/Pigに対して、CDH2ではHBASE/ZooKeeperが加えられ、「HDFS」におけるNamenodeマシンのSingle Point Failerの問題も、このZooKeeperで改善されていくという。なお、現時点では、CDH1を安定バージョンとして、また、CDH2をテストバージョンとして使ってほしいとの説明も加えられた。

 そして、Cloudera Desktopに関しては、クラスタ監視などのマネジメント機能をWebベースで提供するものであり、テクニカルユーザー以外によるHadoopの使用を、促進するものになるとの説明がなされた。もちろん、このCloudera Desktopもオープンソースソフトウェアとして提供され、ユーザーによるカスタマイズや、ビジネスでの利用も促進してほしいという。

 冒頭に述べたように、オープンソースの流れは止めようがなく、また、ITの民主化を推し進める力強さを備えつつある。Hadoop Conference Japanの一週間後にニューヨークで開催された「Open Web 2.0 Expo」でティム・オライリー氏が、無益な競争の回避を唱えたことは賞賛に値するが、こうした彼の発言は、2009年4月にサンフランシスコで開催された 前回の Open Web 2.0 Expo に遡ることで、その言わんとすることがより明確に理解できる。つまり、ITが成長してスマートになるということは、企業や国家の枠を越えて、人類に貢献することにほかならないと、彼は言っているのだと思う。

 ClouderaによるHadoop提供が軌道に乗りかけた時期と、オライリーによる発言のタイミングが重なることに、筆者は何らかの因縁めいたものと感じざるを得ないのである。世界の動向と同期する、この日本でのうねりが、これからも勢いを保ちつつ、また、ユーザーを第一に考えたエコシステムとして成熟していってほしいと願って止まない。このカンファレンスの前日に、ビシーリア氏が満面の笑みで明るく言い放った「あしたは“Big Day”だ」という言葉が、いまもなお、心地よく耳に残っている。

Photo contributed by Kazuki Ohta


Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ