「OSSを選ぶ方が賢明だ」英公共テレビ局のビッグデータ導入記Computer Weekly

英国の公共テレビ局Channel 4では、どのようにビッグデータを管理し、オンデマンドサービスを提供しているのか? 同社CTOが本音を語る。

» 2013年08月07日 10時00分 公開
[Bill Goodwin,ITmedia]

 デービッド・アブラハム氏は、3年前に英公共テレビ局Channel 4の最高経営責任者に就任した。そのとき彼の頭の中は、「データ」のことでいっぱいだった。

 アブラハム氏は、オンラインテレビの試聴者が生成するデータを活用できれば、Channel 4は競合と差別化できる新しいサービスを開発できることに、早々に気が付いていたのだ。

 「アブラハムは、データを収集、高速処理、分析して、(Channel 4の)事業にデータを活用したがっていた」と話すのは、同局の最高技術責任者(CTO)、ボブ・ハリス氏だ。

Computer Weekly日本語版 2013年8月7日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 2013年8月7日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。プレミアムコンテンツのダウンロードにはTechTargetジャパンへの会員登録(無料)が必要です。

Computer Weekly日本語版 2013年8月7日号:ビッグ・データがテレビを変えるダウンロードページへ

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。


 例えば、視聴者が好きな端末を使って、番組の続きを前回中断したところから視聴できる機能や、視聴者のそれまでの視聴履歴を基に、関心がありそうな番組のメニューを提供するといった簡単なことでも、付加価値サービスになるだろう。

急増するデータを考えたツール選定

 「データベース担当者、データ記録担当者、BIチームと会合を持ち、データの急増にどのように対応していくかを論議した」とハリス氏は語る。

 Channel 4の研究開発部門は早くも2001年に、台頭し始めたビッグデータ関連テクノロジーの動向を追い始めた。その中で際立っていたのが、Hadoop MapReduceだ。「(Hadoop MapReduceは)大量のデータを扱うための、最先端のテクノロジーであるように思えた」とハリス氏はコメントしている。ITチームは、Clouderaなどのビッグデータを専門とする企業の協力の下で、幾つかの概念実証試験を実施した。しかし、これはハリス氏の予想よりも困難な作業であることが分かった。

 「ビッグデータの分析や処理を行うプログラムを安価なコンピュータを使って社内で開発するのは、人がいうほど簡単ではないと判断した」(ハリス氏)

 そこでChannel 4は、同局のメインのクラウドコンピューティングサービスプロバイダーである米Amazonが提供する、オンデマンドのビッグデータサービスを検討し始めた。

AmazonのElastic MapReduce

 結局、Channel 4はAmazonのElastic MapReduce(EMR)サービスを選んだ。EMRは、Hadoopを使ったオンデマンドのビッグデータ処理機能を提供する。ハリス氏は、2012年いっぱいは、Channel 4の既存のBIシステムと並行してEMRを運用し、成果を比較することにした。

 「最初は、弊社のBIシステムで大量のビッグデータ処理を始めたが、EMRを代わりに使うようになった」とハリス氏は言う。EMRの方が従来のBIソフトウェアよりも段違いに大量のデータを処理でき、Channel 4のデータをはるかに短い時間で処理できることが明らかになった。

 「数日かかっていたジョブのほとんどが、10時間未満で処理できるようになったので、生産性が大幅に向上した」(ハリス氏)

デスクトップPCから数十万行のデータを照会

 生産性は、デスクトップPCから膨大な量のデータを探索できるHadoop用のプログラミングツール「Hive」を導入したことで、さらに向上した。

 ユーザーは各自のデスクトップPCから数十万行のデータをクエリでき、結果は数分〜数時間で出るという。これだけ大量のデータを処理する場合のメリットは、全体の1〜2%以下であることが前提だが、質の悪いデータがあっても、重大な問題を引き起こすことなく除外できることだ。

 通常、1回のビッグデータ探索では、2000万行のデータが処理され、1000万行の結果が生成される。結果として返された1000万行の格納先として最適な場所は、一般的なデータウェアハウスだというのが、ハリス氏の意見だ。

 Channel 4は、従来のBIテクノロジーに数千万ポンドを投じていて、腕の立つスタッフを抱えている。また、大半の従来のITメーカーは、ビッグデータ向けのインタフェースを開発しているため、従来のBIシステムをすぐに置き換える必要はないとハリス氏は見ている。

 「私自身も含めて、大抵のITリーダーは、数百万ポンドを投資してきているので、こういった(従来の)テクノロジーは当面はなくならないだろう」

ビッグデータから得た教訓

 ハリス氏にとって、Channel 4のこれまでの過程は、Hadoopなどビッグデータ専用のテクノロジーの方が、リレーショナルデータベース管理システム(RDBMS)を基盤とする従来のBIテクノロジーよりもはるかに優れていることを示している。

 「同じジョブでも、MapReduceでは数時間で処理できるところを、RDBMSテクノロジーを実行する高性能のSunサーバでは数百日を要する上、コストも跳ね上がる」とハリス氏は語る。ITベンダーは、超並列コンピュータを基盤にプロプライエタリ製品を開発しているが、そういった製品から得られる投資1ポンド当たりのリターンは、Hadoopと比べてかなり劣る。

 ハリス氏は「こういったプロプライエタリ製品に投資をしている大勢のユーザーと話をしたが、それらの製品で全ての要件に対応できていると答えた人は1人もいない」というエピソードを紹介。実際にビッグデータテクノロジーを導入するのであれば、商用パッケージソフトウェアではなく、Hadoopなどのオープンソースソフトウェアを選ぶ方が賢明だとしている。

 ハリス氏は、オープンソーステクノロジーこそ「最先端の」テクノロジーであり、「本当に問題を解決できるプロプライエタリのビッグデータテクノロジーは見たことがない。多くのベンダーが、オープンソースソフトウェアと安いハードウェアを組み合わせて、それぞれにパッケージ製品を作り、法外な値段で売ろうとしている」(ハリス氏)

Hadoopが技術者の間に巻き起こす宗教的な議論

 Hadoopを提供・サポートしている企業も複数ある。Clouderaと米HortworksのHadoopとを比較して、宗教的ともいえる議論が繰り広げられている。ハリス氏は、どのバージョンのHadoopがベストかは、全く決められないという立場を取っている。

 もう少しまともな議論は、Hadoopを社内で実行するか、クラウドで実行するか、だ。また、Amazonを利用するなら、AmazonのEMRサービスで実行するパッケージ版のHadoopを選ぶのか、それともAmazonのサーバとストレージを使って、独自に選んだHadoopソフトウェアを実行するのか? いずれの道を選ぶにしても、ビッグデータテクノロジーはまだ成熟しておらず、導入は難しいとハリス氏は言う。

 Hadoop導入を成功させるには、オープンソースコミュニティーを受け入れて、筋金入りの熱心な技術者たちと何時間も作業をする覚悟が必要だ。

 Channel 4は、独自にビッグデータツールを作成しなければならなかった。「自分でツールを作成しなくてはならないというのは本当に嫌だ」とハリス氏は訴える。「非常に良くできたツールは流通しているが、実際のところ、要件を満たすものはない。自分でコーディングせざるを得ない」

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ