その後はマシン性能を増強し、パフォーマンス改善への施策を重ねてきた。一方、全社向けの大規模Hadoopクラスタが構築されたことで、DWHチームはTeradataからの負荷分散を試行錯誤したという。しかし、その過程でTeradataで行っている複雑な分析業務などは、Hadoopで代替できるわけではないということも分かってきた。
「僕らにとってDWHというのは、データをきれいに整えて分かりやすくし、全社に提供するという役目があると思っています。データの整備は汗をかかないといいものはでき上がりません。Hadoopにさまざまなデータを整備した時期もありましたが、テラバイト級のデータを自由に組み合わせてクエリを実行する用途には、今でも既存のDWH(Teradata)のほうが向いているので、現在はそのデータを充実させることに注力しています。
1つのデータプラットフォームに全てのデータを集めるのは現実的には難しいですし、もちろんDWHに向かないデータ形式もあります。なので、データの種類や性質に応じて適材適所でTeradataとHadoopを使い分ければいいと考えているんです」(櫻井さん)
1つのデータプラットフォームに全てのデータを集めるのは難しいが、DWHで全てのデータを分析できるようになればいい――。今、ヤフーのDWHは新たな改修が始まっている。Teradata以外のデータソースも含めて利用可能にし、1つの大きなDWHとして運用する「Logical DWH」構想だ。
「SQLだけではなくさまざまな分析クエリを実行したい」「構造化、非構造化データをつなげて分析したい」「複数データソースにまたがって分析したい」というユーザーから挙がっていたニーズを満たせるという。
複数のデータソースをまたいだ分析が楽にできるようになることで、サービスを超えた共同キャンペーンを効果的に行えるようになるなど、より大きな成果が得られるようになるそうだ。
「例えば昨年11月11日に行った“いい買物の日”などは、複数のサービスを横断する形でキャンペーンを展開しました。どうすればユーザーがより快適に買い物ができるか、より欲しいものを見つけやすくなるか。分析結果からさまざまな施策を行い、売り上げにも効果が現れました」(櫻井さん)
Copyright © ITmedia, Inc. All Rights Reserved.