680億PVのヤフーを支えるDWH活用、14年の歴史の“裏側”(2/3 ページ)
100以上のサービスを展開し、月間680億PVの巨大ポータルサイト「Yahoo! JAPAN」。そこで得られる膨大なデータを蓄積するデータ分析基盤はどうなっているのか。その全貌と苦労の歴史、そして“よりよい分析環境”を作るために意識していることを聞いた。
「Hadoop一本化」の流れから、プラットフォームの使い分けへ
その後はマシン性能を増強し、パフォーマンス改善への施策を重ねてきた。一方、全社向けの大規模Hadoopクラスタが構築されたことで、DWHチームはTeradataからの負荷分散を試行錯誤したという。しかし、その過程でTeradataで行っている複雑な分析業務などは、Hadoopで代替できるわけではないということも分かってきた。
「僕らにとってDWHというのは、データをきれいに整えて分かりやすくし、全社に提供するという役目があると思っています。データの整備は汗をかかないといいものはでき上がりません。Hadoopにさまざまなデータを整備した時期もありましたが、テラバイト級のデータを自由に組み合わせてクエリを実行する用途には、今でも既存のDWH(Teradata)のほうが向いているので、現在はそのデータを充実させることに注力しています。
1つのデータプラットフォームに全てのデータを集めるのは現実的には難しいですし、もちろんDWHに向かないデータ形式もあります。なので、データの種類や性質に応じて適材適所でTeradataとHadoopを使い分ければいいと考えているんです」(櫻井さん)
複数のデータソースをつなげ、より多彩な分析を
1つのデータプラットフォームに全てのデータを集めるのは難しいが、DWHで全てのデータを分析できるようになればいい――。今、ヤフーのDWHは新たな改修が始まっている。Teradata以外のデータソースも含めて利用可能にし、1つの大きなDWHとして運用する「Logical DWH」構想だ。
「SQLだけではなくさまざまな分析クエリを実行したい」「構造化、非構造化データをつなげて分析したい」「複数データソースにまたがって分析したい」というユーザーから挙がっていたニーズを満たせるという。
複数のデータソースをまたいだ分析が楽にできるようになることで、サービスを超えた共同キャンペーンを効果的に行えるようになるなど、より大きな成果が得られるようになるそうだ。
「例えば昨年11月11日に行った“いい買物の日”などは、複数のサービスを横断する形でキャンペーンを展開しました。どうすればユーザーがより快適に買い物ができるか、より欲しいものを見つけやすくなるか。分析結果からさまざまな施策を行い、売り上げにも効果が現れました」(櫻井さん)
関連記事
- “爆速×ビッグデータ”でヤフーが実現したこと
月に580億ものページビューを叩き出す巨大サイト「Yahoo! JAPAN」。そこで収集、蓄積された“ビッグデータ”を効果的に活用して、ビジネスに貢献しようと日夜奮闘するデータ専門部隊がある。 - ビッグデータも「統合」がカギ、TeradataとHadoopで「ニッポンの課題解決エンジン」を目指すヤフー
「Teradata Universe Tokyo 2014」では、TeradataとHadoopを組み合わせ、全社を挙げてビッグデータを分析・活用するヤフーが、その取り組みを紹介した。サービスをより良いものにしていくためには、組織の垣根を越え、横串しでデータを掛け合わせる「統合」がやはりカギを握るという。 - オートバックスセブンが「2800万人」の顧客データを分析できた理由
1980年代から会員カードの発行を始め、1990年代にポイント制度を導入するなど、顧客の属性や購買行動を基にしたマーケティング活動を早くから始めてきたオートバックスセブン。近年は約2800万人のデータを分析しているが、分析精度を高める取り組みとともに、データ分析基盤の整備も行ってきた。 - データ分析で変わる、みずほ銀行の“オムニチャネル”戦略
コールセンターでのWatson導入や店舗へのPepper設置など、業界の中でも先進的なIT活用で注目される「みずほ銀行」。同社は増え続けるデータへの対策やオムニチャネル施策の重要性も認識しており、5年以上の歳月をかけてデータ分析基盤の刷新を続けている。
Copyright © ITmedia, Inc. All Rights Reserved.