680億PVのヤフーを支えるDWH活用、14年の歴史の“裏側”(2/3 ページ)

» 2016年06月22日 08時00分 公開
[池田憲弘ITmedia]

「Hadoop一本化」の流れから、プラットフォームの使い分けへ

 その後はマシン性能を増強し、パフォーマンス改善への施策を重ねてきた。一方、全社向けの大規模Hadoopクラスタが構築されたことで、DWHチームはTeradataからの負荷分散を試行錯誤したという。しかし、その過程でTeradataで行っている複雑な分析業務などは、Hadoopで代替できるわけではないということも分かってきた。

 「僕らにとってDWHというのは、データをきれいに整えて分かりやすくし、全社に提供するという役目があると思っています。データの整備は汗をかかないといいものはでき上がりません。Hadoopにさまざまなデータを整備した時期もありましたが、テラバイト級のデータを自由に組み合わせてクエリを実行する用途には、今でも既存のDWH(Teradata)のほうが向いているので、現在はそのデータを充実させることに注力しています。

 1つのデータプラットフォームに全てのデータを集めるのは現実的には難しいですし、もちろんDWHに向かないデータ形式もあります。なので、データの種類や性質に応じて適材適所でTeradataとHadoopを使い分ければいいと考えているんです」(櫻井さん)

photo 現在のヤフーのデータ基盤の全体像。Hadoop、RDB、NoSQL、オブジェクトストレージ、DWHそれぞれをデータの特性や利用目的に合わせて使い分けている

複数のデータソースをつなげ、より多彩な分析を

 1つのデータプラットフォームに全てのデータを集めるのは難しいが、DWHで全てのデータを分析できるようになればいい――。今、ヤフーのDWHは新たな改修が始まっている。Teradata以外のデータソースも含めて利用可能にし、1つの大きなDWHとして運用する「Logical DWH」構想だ。

 「SQLだけではなくさまざまな分析クエリを実行したい」「構造化、非構造化データをつなげて分析したい」「複数データソースにまたがって分析したい」というユーザーから挙がっていたニーズを満たせるという。

photo Teradata以外のデータソースも含めて接続し、1つの大きなDWHを作る「Logical DWH」構想。Teradataから他のデータソースにアクセスできる「Teradata QueryGrid」やメモリベースの高速クエリエンジン「Presto」を採用している

 複数のデータソースをまたいだ分析が楽にできるようになることで、サービスを超えた共同キャンペーンを効果的に行えるようになるなど、より大きな成果が得られるようになるそうだ。

 「例えば昨年11月11日に行った“いい買物の日”などは、複数のサービスを横断する形でキャンペーンを展開しました。どうすればユーザーがより快適に買い物ができるか、より欲しいものを見つけやすくなるか。分析結果からさまざまな施策を行い、売り上げにも効果が現れました」(櫻井さん)

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ