検索エンジン系ツールの見取り図:次世代検索の行き先(2/2 ページ)
探すという行為を行うのに、検索エンジンはもはや欠かすことのできないものとなっている。現在、検索エンジンにはどのようなものがあるのか。まずはそれを知ることから始めよう。
ESP
ESP(Enterprise Search Platform)は、企業内に存在するあらゆる情報(コンテンツ)やデータを対象に検索機能を提供するプラットフォームのことを指し、ファイルサーバにあるHTML、PDF、Wordなどに加え、データベースや業務アプリケーションが作成したさまざまな形式のファイルなども横断検索できる。
ESPを一言でいうと、クエリから関連性の高いコンテンツを探すものであるが、その実現は容易ではない。エンティティ(実体:誰が、いつ、何を、といった情報)や自動カテゴリー化、自然言語処理といった最新技術が必要になる。
ビジネスインテリジェンス
組織内にはCRMなどのシステムが生成する構造化データと、文書や電子メール、画像といった非構造化データの2種類がある。構造化データから目的の結果を探すツールがビジネスインテリジェンス(BI)だ。非構造化データを扱う検索エンジンと類似性があるといえる。
BIの対象となる構造化データは、データウェアハウスなどのデータベースに格納されており、ユーザーがデータを利用するには、データベースの構造やSQLの知識が必要となる。BIはこれらの知識を持たないユーザーでも簡単に構造化データを利用できる仕組みを提供している。
近年ユーザー側が構造化・非構造化データを区別せずに検索結果を得たいというニーズが高まっていることから、今後はBIと検索エンジンが統合していく動きが見られるかもしれない。
画像、マルチメディア検索
検索エンジンが提供する画像検索は、画像の内容を解析するのではなく、クローリングの際に画像ファイルの周りにあるテキストや、画像を挿入するためのIMGタグに付加されるALT情報をキーワードとして拾い、検索するものが多い。こういった画像検索は、ユーザーが欲しい情報の周辺にある情報を集めるもので、主に人名、地名、商品名など固有名詞を探し出すのに適している。
これとは別に、画像の特徴などの直感的な情報から、類似した画像を集めるといった画像内容の検索に関する研究も進められている。画像上の形や構図、色の分布といったデータを数値化し、検索の際には各要素の数値データが近いものを画像として選ぶ「類似画像検索技術」や、サムネイル画像と画像があるWebページの文字情報を併せて検索可能にする「画像クラスタリング技術」などがある。
検索エンジンには大きく分けてこれらのものがあるが、情報量が膨大になりすぎた現在では、情報が見つからないケースより見つかりすぎるケースのほうが多くなってしまったといえる。次回は、これらの課題を解決する検索エンジンの事例を取り上げる。
関連記事
- 自分の名前、だれかにググられても大丈夫?
同姓同名の人物がした行いが、あたかも自分がしたことように、世間で誤解されてはいないだろうか? 検索の世界ではこうしたリスクが潜む。だが、それを回避するのは難しいことではない。 - Vistaの新しいUIと機能、その有効利用を考える
Vistaの新しいユーザーインタフェース機能の一部は、サードパーティーの開発者が自社のアプリケーションの拡張やプロモーションに利用できるだろう。 - 数Tバイトを一瞬で巡回――アクセラテクノロジがインデクシング高速化オプションを発表
アクセラテクノロジは、エンタープライズサーチのインデックス更新を高速化する「Accela BizSearch インデクシング高速化オプション NTFS用」を販売する。 - ツールだけじゃムリ? 90万のファイル検索を実現した東京ガス
厳しくなる経営環境に対応すべくKMに取り組んできた東京ガス。同社が膨大な数の電子ファイル、さらには紙文書の情報共有を実現するツールとして着目したのがエンタープライズサーチだった。 - ビジネスインテリジェンスは誰のため?
今再び注目を集める「BI:ビジネスインテリジェンス」。今までのBIと何が違い、BIで組織を変革するためには何が必要なのかを明らかにする。一回目は、「現場のためのBI」とは何かを探る。 - MS、ネット関連の研究所を設置。元Yahoo!研究者をトップに
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.