ASFのトッププロジェクトとなった「Apache Nutch」、バージョン1.1を公開

Lucene/Solrを土台とする大規模なWeb検索向けフレームワークとして注目を集める「Apache Nutch」のメジャーアップデートがリリースされた。Hadoopやコンテンツ検出/分析用の軽量ツールキット「Tika」などとも統合できる。

» 2010年06月21日 16時38分 公開
[末岡洋子,SourceForge.JP Magazine]
SourceForge.JP Magazine

 Apache Software Foundation(ASF)のApache Nutchプロジェクトは6月19日、オープンソースのWeb検索ソフトウェア「Apache Nutch 1.1」を公開した。プロジェクトのWebサイトからソースコードとバイナリがダウンロードできる。

 Apache Nutchは、「Apache Lucene」のサブジェクトとしてスタートしたWeb検索ソフトウェア。2010年4月、ASFのボードメンバーが新たに承認したトップレベルプロジェクト(TLP)の1つとなっている。

 大規模なWeb検索向けに拡張性を持たせたフレームワークで、Lucene/Solrを土台に、WebページやPDFファイル、そのほかのドキュメント向けパーサ、クローラー、リンクグラフ/データベースを付け加えた。MapReduceのJava実装「Hadoop」やコンテンツ検出/分析用の軽量ツールキット「Tika」などと統合可能で、コンテンツと関連情報のパーシング、メタデータのインデックス化などの機能を持つ。

 バージョン1.1は、2009年3月にバージョン1.0が公開されて以来のメジャーアップデート。バグの修正のほか、インタフェースの改善など細かな機能が改善されている。Lucene 3.0.1、Hadoop 0.20など、対応ソフトウェアもアップグレードした。

関連キーワード

Apache | 検索 | Apache Hadoop




Copyright © 2010 OSDN Corporation, All Rights Reserved.

注目のテーマ