オープンソースの分散処理ソフトウェアとして注目を集めるHadoop。企業ITコンサルタントの鵜澤幹夫氏がHadoopにおけるベンダーの取り組みを聞いた。
(このコンテンツは日立「Open Middleware Report vol.54」をもとに構成しています)
「大量データ」関連のトピックが注目されている。身近な例として挙げられるのは、FacebookやTwitterなどのSNSだ。前者は6億人、後者は1億人とも言われるユーザーを抱え、それぞれが数十ペタバイトという膨大なデータを毎日のように処理しているとされる。
また一方、各種のeコマースサイトや証券・金融の分野、そしてスマートグリッドなどにおいても、大量データの活用は始まっている。アクセスログや大量の各種センサーから得られる膨大なデータ、その解析および活用を行うために、これまでとは異なるアプローチがなされている。
CPU性能の向上やメモリ・ストレージの低価格化も、この新しい領域を現実的なレベルにまで引き寄せている。同時にソフトウェアの分野においても、大量データ活用のための技術や手法の開発が急ピッチで進んでいる。その中で注目を集めているのがオープンソースの分散処理技術であるHadoopだ。
Hadoopをはじめとする大量データ処理技術や動向に詳しい、企業ITコンサルタントの鵜沢幹夫氏と、日立製作所のアプリケーション基盤ソフトウェア本部 AP基盤ソリューションセンタ 担当部長である山口俊朗氏が、その現状と展望を語る。
鵜沢 最近、いわゆる「大量データ」というキーワードをよく目にするようになりました。エンタープライズシステムにおいては、これまでも膨大なデータが取り扱われてきたはずですが、それらとは異なるニーズが生まれているようです。
山口 これまでのエンタープライズシステムにも、大量データという言葉は使われてきましたが、最近注目されているものは、これとは意味合いがなります。
例として挙げられるのが、年間で数1000億円を売り上げる規模の小売チェーンで用いられるような膨大なPOSデータです。この例で特徴的なのは、キーボードに向かって打ち込まれたデータではなく、POSというある種のセンサーから取得された、大量のログデータを活用している点です。このようなデータは従来のエンタープライズシステムとは桁違いのスケールで生成されるため、異なる方法論で対処していく必要性があるのです。
鵜沢 こうした新しいタイプの大量データについて、ベンダーはどのように考えているのでしょうか。
山口 日立では、データセンターなどで運用されるサーバ群から得られる大量のログデータをタイムリーに収集・解析することで安定した運用を図るというサービスを提供しています。また、前述のPOSのシナリオにも利用できる、大量バッチの並列処理という分野にも参入しています。
鵜沢 大量データを処理するためのソリューションとして、Hadoopが注目されていますが、どのような取り組みをされていますか。
山口 まずお伝えしたいことは、これまでに日立として進めてきた大量データへの取り組みの一環としてHadoopを評価し、また、活用していこうとしていることです。Hadoopは確かに魅力的なテクノロジーではありますが、Hadoop単体でなく、日立のミドルウェア製品と連携させることでより良いソリューションを提案できると考えています。
鵜沢 Hadoopの周辺には、分散ファイルシステムや操作を容易にするためのインタフェースがあると聞きます。それらのいわばHadoopファミリーを活用していくという考えなのでしょうか。
山口 周辺を整備するための開発も進められており、Hadoop自体を効率よく運用するために今後利用していくことになるでしょう。一口に大量データといっても、その種類は多様で、Hadoopによる処理に向かないものもあります。従って、適材適所でHadoopを活用していくという基本方針で、この新しい領域に取り組みたいと考えています。
鵜沢 Hadoopに適したシステムとはどのようなものでしょう。
山口 Hadoopが向いているのは、処理量が膨大になるために今まで諦めていたことを試行錯誤しながら構築していくシステムです。ユーザーのニーズに応じたソリューションを提供することが基本姿勢なので、さまざまな立ち位置でHadoopに取り組むことになります。また、日立のデータセンタービジネスと組み合わせて、月額契約のクラウドサービスを提供していきます。将来的にはHadoopクラスタの時間貸しのような展開も考えられるでしょう。
鵜沢 ユーザーはどのようなメリットを得られますか。
山口 基本的に、Hadoopには高価なマシンは必要ありません。廉価な普及品サーバに対して処理を分散し、並列に実行した後に、その結果を取りまとめるという処理を行います。従って、ユーザー企業のオンプレミス環境でも利用が可能です。ただ、処理すべきデータが大容量になればなるほど、使用されるサーバ数も増えてきます。
また、基本的にはバッチ的な処理となりますので、ほかのサーバのように常に稼働しているという使い方にはなりません。極端な話、1年間に数回のみ大規模なデータをバッチ処理で加工するという使い方もあるのです。そのような場合には、自前でHadoop環境を持つより、その時だけデータセンターにホスティングされている環境を借りたほうが経済的です。
鵜沢 Amazon AWSのElastic MapReduceというサービスは、まさにHadoopクラスタの時間貸しサービスを提供していますね。
山口 はい。このようなサービスを含めて、日立としてはSIerとホスティングという2つの役割を担うことになると思います。システムを作っていくというSIer的な役割だけでなく、同時にクラウド環境の提供も今後ニーズが高まっていくと考えており、日立としても双方に取り組むことになります。
鵜沢 Hadoopをうまく活用するには適用用途の見極めが必要になります。Hadoopを適用する上での注意事項はありますか。
山口 Hadoopでは分散処理には冗長性がありますが、それらを管理するマスターノードはそうではないないため、障害の原因になることがあります。その一方でHadoopはバッチ的な処理が基本であるため、その処理をやり直せばよいという考え方も持っているのが特徴です。しかし、そのような場合においても、自動的なリスタートや、別マシンとのフェイルオーバーが実際のシステムとしては必要です。そしてそこがHadoopの制約であり、かつ日立のミドルウェア製品で補うべき機能であると考えています。
鵜沢 Hadoopはユーザーの期待も高い技術です。今後も現場のニーズに沿ったソリューションの提供を期待します。
Copyright © ITmedia, Inc. All Rights Reserved.