News:ニュース速報 | 2002年1月11日 05:43 PM 更新 |
富士通研究所は1月11日,画像とテキストを含む文書ファイルを,テキスト内容だけでなく文書レイアウトの特徴からも検索できる新技術を開発したと発表した。
まずページごとに図表や文字のレイアウトに関する特徴を抽出。さらにテキストから単語の出現頻度についても特徴を抽出する。得られた特徴を基に,ページを仮想3次元空間内に配置。似ている文書同士を近くに置くことで,類似性のある文書が集合体を作る。レイアウト特徴で“ソート”すれば似たレイアウトのページが1カ所に集まり,テキスト特徴なら内容が似ているページが集合する。
画像や図表を含んだ文書ファイルは多いが,検索はファイル名やテキスト内容に限られ,図表を再利用する際にはさらに各ページを開いて探す必要がある。新技術はレイアウトとテキスト両方の特徴を切り替えながら3次元空間を見て回ることで,容易に目的の文書を探し出すことができるという。
関連リンク
ニュースリリース
Copyright © ITmedia, Inc. All Rights Reserved.