Googleはデータに何らかの手を加えている? コンテンツ時代のデータ像Silicon LIVE! Forum 2006リポート

日本SGIは「SiliconLIVE! Forum 2006」を開催した。同フォーラムでお茶の水女子大学の増永良文教授は、Googleの信用性と透明性に疑問を呈するなど、コンテンツ時代におけるデータのあり方について講演を行った。

» 2006年06月28日 22時07分 公開
[丸山隆平,ITmedia]

 日本SGIは6月28日、東京・恵比寿のウェスティンホテル東京で「SiliconLIVE! Forum 2006」を開催した。同フォーラムの中から、「マルチメディア・コミュニケーション&データベース」と題したお茶の水女子大学理学部情報科学科の増永良文教授の基調講演を紹介する。 

増永良文教授 「わたしは30年以上、データベースにかかわってきた」と増永氏。日本データベース学会の会長でもある

DBの研究開発はシステムからコンテンツへ移行

 増永教授は「DBとは何か」の説明について、「DBには2つ意味がある。1つはDBのコンテンツ。もう1つは、Oracleなどデータを管理するDB管理システム」と解説した。そして、DBに関する最近の関心事について、「従来は、DB管理システムに関心が集まっていたが、最近は、データウエアハウスなどに蓄積したデータからどういった知識、ルールが出てくるのか、DBの中身に関心が移ってきた」と述べた。

 「DBはわれわれが住んでいる世の中の“写し絵”だ。リレーショナルDBは表の形でデータを管理するが、CADや、マルチメディア、ネットワーク管理などはデータが複雑でリレーショナルDBモデルでは表現が難しい。それよりオブジェクト指向DBを持ち込んでCADのデータをマッピングした方が分かりやすい。DBはある記号系の下で実世界を写し込む」と解説した。

 また、最近のDBの研究開発は、データの内容に立ち入った領域で進められているという。具体的には従来のリレーショナルDBやオブジェクト指向DBでは枠組みが決まっているが、半構造では文章の書き方を指定する。時々刻々入ってくるデータをどう管理するかもテーマだ。

 そして、「もう1つ言及しておかなければならないのが、マルチメディアDB」と同氏は語る。「われわれが住んでいる3Dの世界プラス時間をどうするのかという話になる。実世界を写し込んでいるDBにもう1歩入ってさまざまな解析を行う結果、現実世界と、DBの密な関係性の認識が見えてくる」というわけだ。

 世界の動向についても、同教授は「4月にアトランタで開催されたInternational Conference on Data Engineeringの発表で最も多かったのはXML関係、次はWeb関係の順で、時代の波を感じさせる」と話す。昨年の発表では、「世の中のDB化されるべきデータの15%しかDB化されていない。残りはマルチメディアデータ」とIBMの大御所が力説したエピソードを紹介、システムからコンテンツへの移行が国際会議の場でも見られることを強調した。

Webマイニングが社会科学研究に与える影響

 Webについては、「ここ数年、Webの世界でも“差しつ差されつ”の関係、つまり、リンクが張られているかいないかのコミュニティーの関係が重要になってきた」と語る。続けて、「このコミュニティーを時間的関係で追うと、結構、いろいろなことが見えてくる」という。

 実例として社会科学者は実地調査をしなくても、Webコミュニティーを調べると研究が済んでしまう時代を迎えたことを指摘した。Webマイニングが社会科学研究に与える影響は大きい。実際にお茶の水女子大では、ジェンダー研究センターと増永教授、そしてWebのアーカイブとマイニングのツールを提供してもらうために東京大学の喜連川教授と組んで研究を進め、その結果、例えば「女性センター」「男女共同センター」などが日本全国で2003年には幾つ作られたか、どう発展してきたかがきれいに分かるという。日本全国をわざわざ調査せずとも、センターがどう生まれ、合併し、解消したかも専門家が見ると一目瞭然に分かるわけだ。

 こうしたことから、「コンテンツとWebマイニングは社会科学の新しいツールになる」と結論付ける。ただし、マイニングツールについては、「われわれがいろいろ改良の要望を出した。専門的知識のある読み手がマイニングツールを鍛えることが必要となる。ドメイン知識、つまり、研究対象について専門知識のある人が、マイニングツールについて『こうしてくれ、ここを改良して欲しい』と要望することが必要だ」とポイントを指摘した。

世界標準の仮想天文台もDB技術で誕生

 続いて、増永教授が客員教授として2年ほど関係した三鷹の国立天文台における仮想天文台の話にも触れた。これまで天文学者は望遠鏡を覗くのが研究活動だったが、仮想天文台ができ上がると、「今後、望遠鏡は不要になり、作られたDBを見ることになる。そこにすべてがある」という。これは現在進行しているプロジェクトで、2008年に完成する予定であるとしている。増永教授はリレーショナルDBの問い合わせ言語の開発を担当している。

 「現状の天文学者は望遠鏡からの1Tバイト程度のデータを収集して解析しているが、仮想天文台では世界中の仮想天文台のDBを統合して、極めて効率的にデータを得ることができるようになる。日米欧の統一した標準化を進めているが、問い合わせ言語についてはわたしが開発した上位互換性を持つSQLが世界標準に採用されることになった。天文学も望遠鏡は不要になる」と解説。これもコンテンツ中心のDBの一例と言えるものだ。

Googleはデータに何らかの手を加えている?

 また、検索エンジンについて、とりわけGoogleの信用性と透明性について興味深い話を披瀝した。「今まで言われていたWebの信頼性は、検索した結果にどれだけ信頼性がおけるか。検索すると1位から順に結果が表示されるが、その順位が正しいのか。透明性は、表示順位のストラテジーをユーザーに明らかにできるかどうか」と解説。

 こうした疑問が生まれたのは、同氏がジェンダー関連の研究でGoogleを活用しているときだという。その後、GoogleとYahoo! Japan、およびGoogle提携サイトでの表示順位の比較と、Googleでの表示順位とページランクとの間に基本的な関係があるかどうかを検討して、今年の日本DB学会の年次大会で発表したという。

 「面白いのは、Googleと提携している検索エンジンは、1点だけを除き、どの検索エンジンも、同じ結果になっていること」

 つまり、Googleと提携している検索エンジンは、Googleから提供された結果をそのまま手を加えず表示していることを意味しているのだが、しかし、Googleの表示結果そのものと、ほかの提携サイトの表示結果を比較すると、明らかな違いがあると増永教授は疑問を呈し、Googleはほかの検索サイトに提供するデータに“何らかの手を加えている”ことを意味しているのではないかと主張する。「Googleのエンジニアに知り合いもいるので尋ねても、『きちんとやっている。人手は入れていない』という回答が来るだけだ。しかし、明らかにおかしい」。

 一般的には、ページランクが高いから高順位に行くという説明がなされているが、「そうした相関性も見られない。また、バックリンクの数との整合性も、Yahoo!で調べたものとは異なる」と明かす。

 そして「皆さんも表示順位のランクを調べて欲しい。わたしが主張したいのはおかしいと思うのとともに、『なぜ、そうした順位になったのかユーザーの誰にも分かる形で示して欲しい』ということ。これは社会的責任だと思う」と結んだ。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ