ITmedia NEWS >
速報
» 2005年07月21日 20時04分 公開

Webページから新語を自動抽出 検索精度向上に

[ITmedia]

 独立行政法人・情報通信研究機構(NICT)と沖電気工業は7月21日、Webページ内の新語を自動抽出し、属性を判別する技術を開発したと発表した。検索エンジンの精度強化に生かす。

 文章中の語句の出現頻度や、前後の語句の変化などから新語を判別し、既存辞書とのマッチングを行って品詞など属性を判定する。名詞だけでなく、助詞を含む成句など多様な新語を抽出できるという。

 高速処理も特徴だ。2年分の新聞記事(約1億文字)を平均1日で解析できるという。

 従来のテキスト解析技術を使った検索では、辞書に登録されていない新語を検索するのが難しく、検索精度を下げる原因となっていたという。新聞記事などを使って新語を獲得する研究が行われているものの、ネット上の文章は書式が多様で、自動獲得が難しかった。

Copyright © ITmedia, Inc. All Rights Reserved.