その後はマシン性能を増強し、パフォーマンス改善への施策を重ねてきた。一方、全社向けの大規模Hadoopクラスタが構築されたことで、DWHチームはTeradataからの負荷分散を試行錯誤したという。しかし、その過程でTeradataで行っている複雑な分析業務などは、Hadoopで代替できるわけではないということも分かってきた。
「僕らにとってDWHというのは、データをきれいに整えて分かりやすくし、全社に提供するという役目があると思っています。データの整備は汗をかかないといいものはでき上がりません。Hadoopにさまざまなデータを整備した時期もありましたが、テラバイト級のデータを自由に組み合わせてクエリを実行する用途には、今でも既存のDWH(Teradata)のほうが向いているので、現在はそのデータを充実させることに注力しています。
1つのデータプラットフォームに全てのデータを集めるのは現実的には難しいですし、もちろんDWHに向かないデータ形式もあります。なので、データの種類や性質に応じて適材適所でTeradataとHadoopを使い分ければいいと考えているんです」(櫻井さん)
1つのデータプラットフォームに全てのデータを集めるのは難しいが、DWHで全てのデータを分析できるようになればいい――。今、ヤフーのDWHは新たな改修が始まっている。Teradata以外のデータソースも含めて利用可能にし、1つの大きなDWHとして運用する「Logical DWH」構想だ。
「SQLだけではなくさまざまな分析クエリを実行したい」「構造化、非構造化データをつなげて分析したい」「複数データソースにまたがって分析したい」というユーザーから挙がっていたニーズを満たせるという。
Teradata以外のデータソースも含めて接続し、1つの大きなDWHを作る「Logical DWH」構想。Teradataから他のデータソースにアクセスできる「Teradata QueryGrid」やメモリベースの高速クエリエンジン「Presto」を採用している複数のデータソースをまたいだ分析が楽にできるようになることで、サービスを超えた共同キャンペーンを効果的に行えるようになるなど、より大きな成果が得られるようになるそうだ。
「例えば昨年11月11日に行った“いい買物の日”などは、複数のサービスを横断する形でキャンペーンを展開しました。どうすればユーザーがより快適に買い物ができるか、より欲しいものを見つけやすくなるか。分析結果からさまざまな施策を行い、売り上げにも効果が現れました」(櫻井さん)
“爆速×ビッグデータ”でヤフーが実現したこと
ビッグデータも「統合」がカギ、TeradataとHadoopで「ニッポンの課題解決エンジン」を目指すヤフー
オートバックスセブンが「2800万人」の顧客データを分析できた理由
データ分析で変わる、みずほ銀行の“オムニチャネル”戦略Copyright © ITmedia, Inc. All Rights Reserved.