SRA OSSは、WordやPDFなどのファイルに含まれるテキストを抽出し、テキストファイルに変換する汎用ライブラリ「libTextConv」を発表した。
SRA OSSは11月13日、WordやPDFなどのファイルに含まれるテキストを抽出し、テキストファイルに変換する汎用ライブラリ「libTextConv」を発表した。非定型データなどが増え続ける中、その全文検索などの用途で活用が見込まれる。
C言語用のライブラリとして提供される同製品は、以下のようなファイル形式からのテキスト抽出を可能にするほか、これらをアーカイブした.zip、.tar、.tar.gz、.gzからのテキスト抽出にも対応する。
Microsoft Office 97-2003(.doc、.xls、.ppt)
Microsoft Office 2007(.docx、.xlsx、.pptx)
OpenOffice.org 2.0(.odt、.ods、.odp)
OpenOffice.org 1.0(.sxw、.sxc、.sxi)
PDF(.pdf)
同製品は、製品や応用アプリケーションに組み込んで使うことを想定しており、ISVやシステムインテグレーターに対して使用権をライセンスする形で提供される。
Copyright © ITmedia, Inc. All Rights Reserved.