富士通研が機密文書の検出精度を高める新技術を公開、情報漏えい対策に活用

富士通研究所は、透かし文字や画像で「社外秘」などと記された電子文書を高精度で検出する技術を開発した。

» 2010年09月06日 16時11分 公開
[國谷武史,ITmedia]

 富士通研究所は9月6日、電子文書に埋め込まれている透かし文字や画像を識別して、「社外秘」などと記載された重要なデータを検出する技術を開発したと発表した。企業などの組織の内部から重要な文書が漏えいするのを防ぐ手段に活用できるという。

 新技術は、検出対象とする電子文書を「emf」形式のファイル(Windows標準の印刷イメージ)に変換し、文書内のテキストと文字の輪郭を画像化した「線画文字」、通常の画像の各データを分離して認識処理を行う。「線画文字」や通常の画像データは、画像で表された文字を「重要」や「秘密」といったキーワードに基づいて識別する。

 同社によると、従来の認識技術ではテキストデータのみ、もしくは画像データをテキストデータに変換するなどして、文書内にキーワードが含まれるかどうかを識別していたという。だが、画像データからテキストを正しく識別できない場合があり、透かし文字の検出は不可能だった。

PowerPointのファイルから透かし文字を検出した様子

 同社がPDF文書200件、Microsoft Officeの文書300件、透かし文字の入ったWordおよびPDF文書200件を用いて画像から文字を正しく抽出する精度を比較した結果、従来の認識技術は89〜93%だったが、新技術では95〜99%に向上することが分かったという。

 近年は、電子文書に透かし文字や画像を用いて機密情報であることを示し、情報漏えいを防ぐために利用者に注意を促している企業が多い。だが利用者が目視で確認することを前提にした方法であり、確認ミスなどで不適切に扱われてしまえば、情報漏えいを防ぐことができない。

 同社では、例えば新技術を電子メールの誤送信防止製品に組み込むことで、添付ファイルが機密文書であるかどうかを自動的に検出できるとしている。また、ファイルサーバやPCなどに保存されている機密文書の検出にも利用できるという。

新技術で検出した機密文書について、電子メールの誤送信防止ツールでユーザーに警告する

 現状では、PDF文書での検出精度をさらに高める必要があるほか、識別の処理に文書1ページ当たり数秒がかかってしまうといった課題がある。同社ではこれらの課題を解消して、2011年度中に製品化を目指すとしている。

企業向け情報を集約した「ITmedia エンタープライズ」も併せてチェック

過去のセキュリティニュース一覧はこちら

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ