MSの検索技術は部門の壁を越える情報活用をもたらすか次世代検索の行き先(2/2 ページ)

» 2007年11月19日 19時30分 公開
[藤村能光,ITmedia]
前のページへ 1|2       

MSが追求する検索技術とは

 インターネット検索と企業内検索は同じ検索でありながらも、その性質はまったく異なるものといってよい。インターネット検索の対象となる情報はHTML形式の非構造化データが多く、GoogleのPageRankのようにリンクが重要な情報を持つ。ユーザーはあらかじめ何を探すかという明確な答えを持たず、今まで出会ったことのない情報を求めている場合が多い。

 一方企業内検索は、WordやPowerPoint、Excelなどが主な検索対象となるため、リンクよりもタイトルや記録場所などの文書属性、作者やタグなどのメタデータが重要となることが多い。またユーザーは多くの場合、探している情報がどのようなものであるかをあらかじめ知っている場合がほとんどで、情報が見つかることを前提としなければならない。

 マイクロソフトはどのような技術で企業内検索を実現しているのか。マイクロソフトディベロップメントのオフィスサービス・プラットフォーム開発統括部インプットメソッドテクノロジーに務める佐藤良治シニアマネジャーによると、MOSSには「ワードブレーカ」「ランキング」「コネクティビティ」の3つの検索技術が使用されているという。

 ワードブレーカは文章を単語に分ける技術で、文書を分解して単語のインデックスファイルを作る場合と、クエリを分解するときに使われている。MSS2008では、単語に分ける際に、文書中にある単語のつながりを統計的に計算して、次の単語に何を表示するかを計算するバイグラムという手法が採用されている。バイグラムを用いることで、例えば「赤い」の次に「花」「鼻」「リンゴ」といった単語が来る確率を独自に算出する。

image 統計的言語モデルに基づくワードブレーカ

 通常のランキングは、単語が使われる頻度や単語を含む文書の数などを基に決定されるが、MOSSでは、企業ごとに設定されている各部門や社員が閲覧する標準的なポータルサイトから何度のクリックで求める情報に到達できるかを示す「クリック距離」や、URLに含まれているスラッシュやドットの数という「URLの深さ」、文書のタイトルやファイルタイプなどをからランキングが決定される。

 コネクティビティの面では、PDFやOffice、ファイルシェアなどのデータをつなぐプロトコルハンドラと、XMLで記述されるERPやCRMなどの業務システムをつなぐビジネスデータカタログを持つ。これらは、インデックスの際に情報を集める技術となる。MSS2008で実現したフェデレーション機能は、2008年上半期にアドオンでMOSSに組み込まれる予定だ。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ