メディア

680億PVのヤフーを支えるDWH活用、14年の歴史の“裏側”（2/3 ページ）

» 2016年06月22日 08時00分公開

「Hadoop一本化」の流れから、プラットフォームの使い分けへ

　その後はマシン性能を増強し、パフォーマンス改善への施策を重ねてきた。一方、全社向けの大規模Hadoopクラスタが構築されたことで、DWHチームはTeradataからの負荷分散を試行錯誤したという。しかし、その過程でTeradataで行っている複雑な分析業務などは、Hadoopで代替できるわけではないということも分かってきた。

　「僕らにとってDWHというのは、データをきれいに整えて分かりやすくし、全社に提供するという役目があると思っています。データの整備は汗をかかないといいものはでき上がりません。Hadoopにさまざまなデータを整備した時期もありましたが、テラバイト級のデータを自由に組み合わせてクエリを実行する用途には、今でも既存のDWH（Teradata）のほうが向いているので、現在はそのデータを充実させることに注力しています。

　1つのデータプラットフォームに全てのデータを集めるのは現実的には難しいですし、もちろんDWHに向かないデータ形式もあります。なので、データの種類や性質に応じて適材適所でTeradataとHadoopを使い分ければいいと考えているんです」（櫻井さん）

現在のヤフーのデータ基盤の全体像。Hadoop、RDB、NoSQL、オブジェクトストレージ、DWHそれぞれをデータの特性や利用目的に合わせて使い分けている

複数のデータソースをつなげ、より多彩な分析を

　1つのデータプラットフォームに全てのデータを集めるのは難しいが、DWHで全てのデータを分析できるようになればいい――。今、ヤフーのDWHは新たな改修が始まっている。Teradata以外のデータソースも含めて利用可能にし、1つの大きなDWHとして運用する「Logical DWH」構想だ。

　「SQLだけではなくさまざまな分析クエリを実行したい」「構造化、非構造化データをつなげて分析したい」「複数データソースにまたがって分析したい」というユーザーから挙がっていたニーズを満たせるという。

Teradata以外のデータソースも含めて接続し、1つの大きなDWHを作る「Logical DWH」構想。Teradataから他のデータソースにアクセスできる「Teradata QueryGrid」やメモリベースの高速クエリエンジン「Presto」を採用している

　複数のデータソースをまたいだ分析が楽にできるようになることで、サービスを超えた共同キャンペーンを効果的に行えるようになるなど、より大きな成果が得られるようになるそうだ。

　「例えば昨年11月11日に行った“いい買物の日”などは、複数のサービスを横断する形でキャンペーンを展開しました。どうすればユーザーがより快適に買い物ができるか、より欲しいものを見つけやすくなるか。分析結果からさまざまな施策を行い、売り上げにも効果が現れました」（櫻井さん）

業務部門の“協力者”を増やすべし

“爆速×ビッグデータ”でヤフーが実現したこと
月に580億ものページビューを叩き出す巨大サイト「Yahoo! JAPAN」。そこで収集、蓄積された“ビッグデータ”を効果的に活用して、ビジネスに貢献しようと日夜奮闘するデータ専門部隊がある。
ビッグデータも「統合」がカギ、TeradataとHadoopで「ニッポンの課題解決エンジン」を目指すヤフー
「Teradata Universe Tokyo 2014」では、TeradataとHadoopを組み合わせ、全社を挙げてビッグデータを分析・活用するヤフーが、その取り組みを紹介した。サービスをより良いものにしていくためには、組織の垣根を越え、横串しでデータを掛け合わせる「統合」がやはりカギを握るという。
オートバックスセブンが「2800万人」の顧客データを分析できた理由
1980年代から会員カードの発行を始め、1990年代にポイント制度を導入するなど、顧客の属性や購買行動を基にしたマーケティング活動を早くから始めてきたオートバックスセブン。近年は約2800万人のデータを分析しているが、分析精度を高める取り組みとともに、データ分析基盤の整備も行ってきた。
データ分析で変わる、みずほ銀行の“オムニチャネル”戦略
コールセンターでのWatson導入や店舗へのPepper設置など、業界の中でも先進的なIT活用で注目される「みずほ銀行」。同社は増え続けるデータへの対策やオムニチャネル施策の重要性も認識しており、5年以上の歳月をかけてデータ分析基盤の刷新を続けている。