ニュース
2004/04/14 17:55 更新

Namazu Project、日本語全文検索システム「Namazu 2.0.13」リリース
Namazu Projectは4月14日、オープンソースソフトウェア「Namazu 2.0.13」をリリースした。前バージョンから1年7ヶ月ぶりのリリースとなる。
Namazu Projectは4月14日、オープンソースソフトウェア「Namazu 2.0.13」をリリースした。GPL2(GNU General Public License version 2)に従って、Webサイトにて一般公開されている。前バージョンから1年7ヶ月ぶりのリリースとなる。
Namazu は手軽に使えることを第一に目指した日本語全文検索システム。CGIとして動作させることで小中規模のWWW全文検索システムを構築可能なほか、コマンドラインから利用する用途にも利用可能。Linux、FreeBSD、OpenBSD、NetBSD、Solaris、Mac OS X、Win32での動作確認が取れている。
同バージョンでは、以下に挙げるようなオプション追加による機能強化、より多くの文書形式に対応、セキュリティの強化、各種バグフィックス等が行われている。
セキュリティ面の強化
- サーバーへ無理な負荷を与える複雑な正規表現検索への対策
- バッファオーバーフローの可能性がある箇所を修正
新機能の追加
- 「--check-filesize」オプションを追加し、タイムスタンプが同一でもファイルサイズが異なるファイルを更新対象とする機能を追加
対応文書形式を追加
- OpenOffice.org文書
- 一太郎 ver.5〜13/2004文書(doccatなしで利用できるフィルタを追加)
- RTF文書
- Apacheキャッシュファイル
- MP3ファイル
- PowerPointスライドショー文書
関連ツールのバージョンアップに対応
- xpdf 2.02以降に対応
- xpdf 3.00の動作確認(PDF 1.5)
- wvWare 0.7.4〜1.0.0に対応
- Microsoft Office 2003に対応
文書抽出精度の向上
- インデックス中のノイズを削減
・HTML_ATTRIBUTESタグ属性(ALT/SUMMARY/TITLE)の削除機能を追加
・文書に混ざる制御コードの削除を徹底
・メールに含まれるbase64コードなどを除去
- HTML 文書でタグの属性(ALT/SUMMARY/TITLE)の重み付けを追加
- 平仮名のみの単語登録、送り仮名除去処理での不具合を解消
- Microsoft Office文書内の半角カナの検索に対応
- Microsoft Word文書の複数セクションに対応
- Adobe PDF文書のプロパティに空データが設定されている場合に対応
- Macbinaryファイルを誤認してノイズが混ざる問題に対処
バグフィックス、セキュリティホールの修正(以下に挙げたもの以外にも多数修正)
- 最大ヒット数の判定を誤るバグ
- フレーズ検索が誤動作するバグ
- 正しく強調表示、強調表示禁止ができないバグ
- HTML文書でスコア計算を誤ることのあるバグ
関連リンク[ITmedia]
Copyright © ITmedia, Inc. All Rights Reserved.
