国会図書館に全文テキスト化システムのプロトタイプを提供 日本IBM

日本IBMは、国立国会図書館の全文テキスト化システムのプロトタイプを開発した。

» 2011年08月01日 19時17分 公開
[伏見学,ITmedia]

 日本IBMは8月1日、国立国会図書館が進めている蔵書のデジタル化作業に関連して、全文テキスト化システムのプロトタイプを開発、提供したことを発表した。

 同プロトタイプは、IBM東京基礎研究所が開発した、一般のユーザーと視覚障がいをもつユーザー、アクセシビリティの専門家などがインターネット上で協働し、Webページのアクセシビリティを向上させるSocial Accessibilityのコンセプトが応用されており、多数の作業者がWebブラウザ経由で同時に協調して作業することを可能にする。ひらがなやカタカナ、漢字、ルビ、縦横書きの混在など、日本語特有の問題を解消し、明治以降の日本語書籍の全文テキスト化作業の効率化、全文テキストデータ検索および表示などが実現できるという。

 具体的には、Webブラウザ経由で多数の文字校正者が同時に作業を行う「共同校正機能」を実装し、校正の作業結果をOCR(光学式文字認識)の再学習に用いることで精度の向上につなげることが可能だという。

 また、視覚障がい者などが読み上げソフトを使って書籍を読む際に重要となる構造化を実施するための「構造情報付加機能」と「読み上げ順序修正機能」などを提供する。これは、全文テキスト化された書籍の構造の種類に応じた最適な構造化インタフェースを用意することで、HTMLやXMLといった記述言語の知識がなくても構造化を行える。

全文テキスト化プロトタイプのシステム概要 全文テキスト化プロトタイプのシステム概要

関連キーワード

IBM | 国会図書館 | デジタル化


Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ