680億PVのヤフーを支えるDWH活用、14年の歴史の“裏側”(1/3 ページ)

100以上のサービスを展開し、月間680億PVの巨大ポータルサイト「Yahoo! JAPAN」。そこで得られる膨大なデータを蓄積するデータ分析基盤はどうなっているのか。その全貌と苦労の歴史、そして“よりよい分析環境”を作るために意識していることを聞いた。

» 2016年06月22日 08時00分 公開
[池田憲弘ITmedia]

 日本最大級のポータルサイト「Yahoo! JAPAN」。検索エンジン以外にもオークションやニュース、天気、スポーツ、メール、ショッピングといった100以上のサービスを展開しており、そのページビュー(PV)は月間で680億にものぼる。

 アクセス情報を中心とした膨大なデータから、ビジネスにつながる知見をどう導くか。同社はデータ分析の専門組織を立ち上げるなど、早くからデータ活用に注力しているが、ユーザーが不自由なくデータを分析できるよう、ITインフラにもさまざまな工夫や改善を重ねている。

 同社のデータ基盤はHadoop、RDB、NoSQL、オブジェクトストレージ、DWHそれぞれが稼働している。約800もあるRDB、そしてDWHは1日あたり30万クエリが実行されるなど、日々すさまじい量のデータが蓄積され、参照され、分析されている。多種多様かつ膨大なデータを分析可能にする環境をどう作っているのか。同社 データプラットフォーム本部 DWHチームの櫻井史彦さんに話を聞いた。

広告商品システムの変更がきっかけで、DWH活用が加速

photo 同社 データプラットフォーム本部 DWHチーム 櫻井史彦さん。日本テラデータの年次イベント「Teradata Universe Tokyo 2016」で講演を行った

 ヤフーが主要サービスのデータを格納するためにDWHを導入したのは2002年。テラデータのDWH(Teradata 5255)を採用したが、当時は数名のスタッフが、業務部門の要望に応えて分析結果を渡すという“ヘルプデスク形式”をとっていたそうだ。

 櫻井さんがヤフーに入社し、このチームに加わったのは2008年のこと。「大量のデータが集まる環境でデータ統合に挑戦してみたかった」(櫻井さん)のがその理由だ。しかし、その直後の2009年にDWHを巡る環境は大きく変わる。広告商品のシステムを変えたことをきっかけに、広告関連のデータを追加し、広告の部門を中心にDWHへのアクセス権を開放したためだ。

 「多くの人が使えるというのはメリットですが、下手なクエリを投げたりするとシステムに大きな負荷がかかりますし、“間違った”分析結果が生まれるリスクもあるのが難しいところです。しかし、少人数のDWH担当ではユーザーの要望に応えきれなくなり、ビジネスのボトルネックになっていることを認識したことで、多くの人に分析のサイクルを回してもらう方針へと変わったわけです」(櫻井さん)

 当時は業務部門のユーザーにもSQLを書いてもらっていたが、それでもアクセスする人数は10倍以上に。使えるようになったという話を聞きつけた人たちが「私たちも使いたい」と依頼し……ということを繰り返すうちに、気付けば利用者は500人以上に増え、システムにかかる負荷も急増。CPUが足りず、クエリをさばけなくなるという事態が起きてしまった。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ