NECは、特定の意味を含む文書を大量のデータの中から瞬時に発見するという「テキスト含意認識」を開発した。
NECは11月14日、大量データの中から特定の意味を含む文書を検出する「テキスト含意認識」の処理を従来比で2万4000倍に高速する新技術を開発したと発表した。ビッグデータソリューションへの適用を予定している。
テキスト含意認識は、表現の違いに左右されることなく特定の意味を含んだ文書を見つけ出す認識技術。従来は、テキストデータの中の全文書を対象に特定の意味を含むかどうか判定するため、処理に長い時間を要した。NECが開発した新技術では、特定の意味を含むかどうかを一括で判定していくプロセスで、ある条件を含まないと確定した文書については候補から除くというアルゴリズムを採用し、処理時間の短縮を可能にしたという。
同社の検証では約700万文のテキストデータを用いた場合で、平均で約2万4000倍の高速化が確認された。新聞なら約4年分の記事データ量に相当し、従来は約1.3時間かかっていた認識を0.2秒で行えるという。
この技術は同社が13日に発表した「Big Data Solutions」のサービスメニューにも採用されている。
Copyright © ITmedia, Inc. All Rights Reserved.