メディア

三菱電機が機密文書を発見する新技術、情報漏えい対策に期待：自動的に検知

三菱電機は、ドキュメントファイルや電子メールの中から機密文書が含まれるデータを自動検出する新技術を開発した。2009年4月以降の商品化を目指す。

» 2009年03月25日 14時45分公開

[ITmedia]

　三菱電機は3月25日、ドキュメントファイルや電子メールに含まれる機密文書データを自動的に検出する技術を開発したと発表した。情報漏えい対策などに利用でき、4月以降の商品化を計画する。

検出の仕組み

　開発した技術は、管理者などが機密文書として指定するキーワードでの検出と自己学習型フィルターと呼ばれるテキストデータの抽出・分析技術を組み合わせたもの。自己学習型フィルターは、事前にサンプルとなる機密文書データを登録しておくことで、機密文書に含まれる特徴を記憶し、検出対象データと記憶したデータと照合することで、機密文書を抽出する。

　新技術と正規表現を参照する従来型のフィルタ技術による検出精度を、約1万4000件のサンプルファイルで比較したところ、機密ファイルを正しく「機密」として検出した割合は新技術で99.9％、従来技術で89.7％だった。また、機密ではないファイルを機密として誤って検出した割合は、新技術で1.3％、従来技術が3.6％だった。この実験では、自己学習型フィルターに1万3000件の機密文書をサンプルとして登録した。

　情報技術総合研究所ビジネスデータ基盤技術チームの郡光則リーダーは、「機密文書と機密ではない文書をそれぞれ500件程度サンプル登録することで、実験とほぼ同様の精度を得られる」と説明。機密文書と機密ではない文書を比較することで、検出精度が高まるという。

　実際に運用する場合、利用者によって機密とする条件や内容が異なるため、部署やグループなどの小人数環境での利用に適している。なお、複数の自己学習型フィルターを階層的に構築すれば、大企業が全社規模で運用する場合にも対応できるとしている。

　情報漏えいを防止するための文書検出技術では、登録されている機密文書のハッシュ値を活用するフィンガープリントや、管理者が事前に設定した「社外秘」などのキーワードを利用するのが一般的。だが、フィンガープリントでは登録文書と検査する文書の内容が完全一致もしくは大部分が一致しなければ、機密文書を正しく判定できない。

　キーワード検索では、キーワード設定する管理者が業務内容に精通していることが求められ、特定の人物に作業負荷が集中する課題があった。新技術は自己学習型フィルターでキーワードの追加登録・管理などの手間を解消できるとしている。

まずキーワード検索を行い、自己学習型フィルターによる検索で補うことで検出精度を高めた

　情報技術総合研究所情報技術部門の中川路哲男部門長は、「フィンガープリントは厳重管理された文書、キーワード検索はローカル上や電子メールの文書の検出にそれぞれ適しているが、新技術はその両方をカバーするもので、国内ではほかに例が無いと見ている。4月からの2009年度中にぜひ事業化させたい」と意欲を示した。

過去のセキュリティニュース一覧はこちら