News:ニュース速報 2002年8月23日 06:32 PM 更新

1つの文書を鍵に大容量データベースを検索できる検索エンジン 日立

日立製作所は8月23日、国立情報学研究所と共同で文書検索エンジンを開発したと発表した

 日立製作所は8月23日、国立情報学研究所と共同で文書検索エンジン「Generic Engine for Transposable Association」(GETA)を開発したと発表した。情報処理振興事業協会(IPA)のサイトで無償提供する。

 開発したのは、1つの文書をそのまま「キー文書」として入力し、最大1000万件規模の大容量データベースから関連文書を検索できる仕組み。特許や科学技術文献の検索での利用を想定する。

 検索は、キー文書に含まれる特徴的な単語50−200個を自動選出し、単語の出現頻度や単語同士の関連性などを計算して行う。

 従来のキーワード検索では、キーワードの組み合わせによって結果が異なり、重要な文書が検索されない可能性があった。GETAでは、文書を使って検索するため、致命的な検索漏れを防止でき、関連度の高い文書を絞り込むことが可能としている。

 また従来の技術では、計算量の大きさが障害となり、実用に耐える速度で検索できるデータベースは数万件規模だったが、GETAでは検索に用いる索引データを圧縮。1000件規模のデータベースでも検索できるようにした。

 複数台のPCを接続するPCクラスタ上で動作できる分散処理型を採用。このため、データベース規模に応じてシステム規模を拡張できる。

 GETAは、IPAが実施した「独創的情報技術育成事業」の一環として開発。開発には東京工業大学、北陸先端科学技術大学院大学、国文学研究資料館が協力した。

 また同エンジンは東京大学医科学研究所・ヒトゲノム解析センターが運営するデータ公開サービス「分子生物学関連データベース」の検索エンジンとして利用されている。

関連リンク
▼ ニュースリリース
▼ ダウンロードサイト

[ITmedia]

Copyright © ITmedia, Inc. All Rights Reserved.