ITmedia NEWS > 企業・業界動向 >

PDFから構造化テキスト抽出に成功 岩波新書をEPUB化 イースト

» 2019年07月25日 07時39分 公開
[ITmedia]

 イーストはこのほど、テキストPDFから、構造化されたマークダウン(簡易HTML)テキストを取り出すことに成功したと発表した。同社は、「日本語で複雑に組版されたPDFからの正確な構造化テキスト抽出は世界初と思われる」としている。PDFから簡単にEPUBを生成できるクラウドサービスとして、「EPUBpack」という名称で出版社向けに販売する。第一弾として岩波書店が、このサービスを使って岩波新書のEPUB化を始めた。

画像

 日本語や欧文、中国語などで利用でき、縦組みや縦中横など、複雑な日本語組版にも対応したツール。

 PDFファイルを読み込むと、目次や大見出し、小見出しなどのマークを付け、構造化されたマークダウン形式のテキストを出力。画像や表、グラフなどの図版は、キャプション文字を組み込んだ画像ファイルが生成される。ルビや窓見出し、ページ単位の縦組み・横組み混在なども正しく抽出できるという。

 このマークダウンファイルを、独自のCMS(コンテンツ管理クラウド)に入れてEPUBファイルを制作する。EPUBは、日本電子書籍出版社協会が定めたEPUB制作のためのガイド「電書協ガイド」に沿っており、EPUB 3.2にも対応した。書籍の改訂もCMSから簡単に行える。コンテンツの履歴管理にはGitを使用した。

 同社は2004年からAdobe PDFライブラリの販売を始めており、15年間蓄積してきたPDFドキュメント技術で、抽出アプリを開発したという。新書や文庫、一般書、学術書、学術論文の他、AIに学習させる社内ドキュメントの構造化などさまざまな分野への応用を期待できるとしている。

Copyright © ITmedia, Inc. All Rights Reserved.