SRA OSS、テキスト変換ライブラリ「libTextConv」を発表

SRA OSSは、WordやPDFなどのファイルに含まれるテキストを抽出し、テキストファイルに変換する汎用ライブラリ「libTextConv」を発表した。

» 2007年11月14日 02時11分 公開
[ITmedia]

 SRA OSSは11月13日、WordやPDFなどのファイルに含まれるテキストを抽出し、テキストファイルに変換する汎用ライブラリ「libTextConv」を発表した。非定型データなどが増え続ける中、その全文検索などの用途で活用が見込まれる。

 C言語用のライブラリとして提供される同製品は、以下のようなファイル形式からのテキスト抽出を可能にするほか、これらをアーカイブした.zip、.tar、.tar.gz、.gzからのテキスト抽出にも対応する。

Microsoft Office 97-2003(.doc、.xls、.ppt)

Microsoft Office 2007(.docx、.xlsx、.pptx)

OpenOffice.org 2.0(.odt、.ods、.odp)

OpenOffice.org 1.0(.sxw、.sxc、.sxi)

PDF(.pdf)


 同製品は、製品や応用アプリケーションに組み込んで使うことを想定しており、ISVやシステムインテグレーターに対して使用権をライセンスする形で提供される。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ