ITmedia NEWS >

検索エンジンが「ユーザーのその日の気分」を知る方法(上)ネットベンチャー3.0【第10回】(2/2 ページ)

» 2006年09月29日 11時00分 公開
[佐々木俊尚,ITmedia]
前のページへ 1|2       

Googleの勝利とその先

 そうした混乱の状況が続く1998年、彗星のように登場してきたのがGoogleだったのである。次の章で詳述するが、Googleはこの2つの競争において、圧倒的な技術的勝利を収めたのである。データベース構築競争においては、Googleは分散モデルを導入することで、データベースのスケーラビリティーを徹底的に推し進めた。1台のスーパーコンピュータで処理するのではなく、大量のマシンを使う分散システムを考え出したのだ。同社のCEOであるエリック・シュミット氏は後に「高性能CPUではなく、より安価で小さなプロセッサを大量に購入して構築する方が、データベース構築には現実的だ」と述べている(Always Onのインタビュー記事より)。これらの安価なマシンを使った数百台のサーバから、数万のHTML収集クローラーが送り出され、同時並列にWebページの収集を行い、これを数万台から数十万台とも言われるマシンに処理させるというものである。

 またアルゴリズム競争においても、Googleは「ページランクテクノロジ」と呼ばれる技術を導入することで、検索結果に圧倒的な公平性と正確さを与えることに成功した。だがここに来て、冒頭に紹介したCNETの記事にもあるように、検索エンジンの新たな地平を模索する動きも出てきている。

 アルゴリズムによる検索エンジンというのは、つまりは徹底的に「神の視点」から集合知を集約していくことであり、Webの世界を知識データベース化したうえで、それを最大公約数的なマクロの視点から抽出していこうという考え方に基づいたものだ。

 しかし一方で、そうしたマクロの引力とは別に、ミクロの引力も存在する。つまりはあるユーザー個人がどのような情報を求めて、検索エンジンを使おうとしているのかを探り当て、そのニーズに徹底的に答えていこうという方向性だ。

履歴も利用するパーソナライズ検索

 そのひとつの回答が、Googleのパーソナライズ検索だ。ITmedia Newsの2005年11月11日の記事、『Google、パーソナライズ検索を正式版に』にはこう説明されている。

このサービスは、以前の検索クエリーに基づき、ユーザーの好みに合わせてGoogleの検索結果を調整するというもの。Googleアカウントを持つユーザーなら誰でも利用できる。

同サービスは検索履歴とクリックされた検索結果から学習し、ユーザーにとって重要と判断した検索結果を上位に持ってくる。例えば、最近iPodアクセサリを検索したユーザーが「apple」というキーワードを検索すると、Apple Computerに関連する検索結果がリンゴに関連する検索結果より上位に表示されるとGoogleは説明している。

またPersonalized Search正式版には、「Bookmarks & Searchable Labels」「Remove Results」という新機能が追加されている。前者は、ブックマークの作成や、検索履歴の項目に検索可能なラベルや注釈を付けることができる機能。後者は、不要な検索結果を今後の検索から排除できる機能だ。1回の検索または今後のすべての検索から、Webページあるいはサイト全体を排除することができる。

 しかし冒頭に紹介したCNETの記事は、この「検索履歴とクリックされた検索結果から学習」しただけでは、ユーザーがどのような検索をしようとしているのかをダイレクトに知るための材料としては、不足しているのではないかと指摘しているわけだ。

 もちろん、パーソナライズ検索の分野では、単純にユーザーの過去の履歴だけを材料にしているわけではない。たとえばAmazon.comで書籍などを購入したとき、購入画面で表示される「この本を買った人はこんな本も買っています」というシミラリティー(類似)機能は、協調フィルタリングと呼ばれる手法を採用している。これは、ある特定のユーザーAと過去の行動が類似している他のユーザーBが好むもの、購入したものは、ユーザーAにとっても有用である可能性が高いという概念に基づいて、情報をフィルタリングする手法である。過去の行動が似ているユーザー同士を動的にグループ化していくことによって、そこからデータマイニングする方法と、複数のユーザーの過去の行動からさまざまな情報の相関関係を見つけ出し、その相関関係から有用な推薦データを見つけていくという情報オリエンテッドな手法の2つがある。

過去の検索に出てこない情報をどうするのか

 だがいずれにせよ、ユーザーの過去の行動からデータマイニングを行っているということには、変わりはない。だが本当に過去の履歴だけで、その人の今の考え方がわかるのか?――という疑問がある。

 たとえば「バス」という検索キーワードを考えてみる。バスには釣りの対象になっている魚のバスもあれば、乗用車のバス、風呂のバスもある。日本語ではすべて同じ「バス」だ。バスフィッシングが趣味のユーザーが、釣りに行く前に必ず魚のバスの情報を検索エンジンで調べていたとすると、パーソナライズ検索では魚のバスについてのURLが検索結果ランキングの上位に表示されるようになる。

 だがこのユーザーは、その日妻に急かされて、前からほしいと思っていたお風呂グッズをネット通販で買おうと思っていたのかもしれない。あるいは、テレビの旅行番組で房総半島のバスツアーが紹介されているのを見て、自分も行きたくなったのかもしれない。いや、テレビで旅行番組は見ていなかったけれども、単にその日の気分が鬱々としていて、「たまには気分晴らしにバス旅行にでも行ってみたい」と旅情をかきたてられたのかもしれない。しかし過去の履歴だけでは、そうした「他からの影響」「その日の気分」などは、まったく考慮に入れられない。

 ではそうした外界からの影響や、本人の内なる精神的志向などをパラメーター化し、情報収集の精度を上げる方法はないのだろうか?

 この分野は、かなり未知の世界だ。しかし未知だからこそ、金鉱も埋まっている。日本のネットベンチャーの中にも、こうした分野に何とか挑もうと考える企業がいくつか生まれてきているのだ。

(毎週金曜日に掲載します)

佐々木俊尚氏のプロフィール

1961年12月5日、兵庫県西脇市生まれ。愛知県立岡崎高校卒、早稲田大政経学部政治学科中退。1988年、毎日新聞社入社。岐阜支局、中部報道部(名古屋)を経て、東京本社社会部。警視庁捜査一課、遊軍などを担当し、殺人や誘拐、海外テロ、オウム真理教事件などの取材に当たる。1999年にアスキーに移籍し、月刊アスキー編集部デスク。2003年からフリージャーナリスト。主にIT分野を取材している。

著書:「徹底追及 個人情報流出事件」(秀和システム)、「ヒルズな人たち」(小学館)、「ライブドア資本論」(日本評論社)、「検索エンジン戦争」(アスペクト)、「ネット業界ハンドブック」(東洋経済新報社)、「グーグルGoogle 既存のビジネスを破壊する」(文春新書)、「検索エンジンがとびっきりの客を連れてきた!」(ソフトバンククリエイティブ)など。


前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.