検索
特集

2008年、Webは文字列解析で変わっていくまとめサイト2.0(5/8 ページ)

オルタナティブ・ブログを例に挙げて“まとめサイト”を作るための手法を紹介してきたこの連載。最終回は、文字列解析の自動化からキーワードを抽出するための方法を紹介しよう。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 これ以降後半では、MeCabを使って形態素解析し、HTMLコンテンツからキーワードを抽出してみる。

MeCabによる形態素解析

 形態素解析をするためのツールのうちフリーなライセンスで使える代表的なものは、表2に示す3つである。

 今回は、この中の「MeCab(和布蕪)」を用いる。

 MeCabは、「京都大学情報学研究科」と「日本電信電話株式会社コミュニケーション科学基礎研究所」の共同研究ユニットプロジェクトによって開発されたオープンソース形態素解析エンジンだ。平均的にKAKASIやChaSenよりも高速に動作する。

 Yahoo!デベロッパーネットワークは、形態素解析Webサービスを提供している。サーバに何かソフトをインストールせずに形態素解析をしたいという場面では、こういったWebサービスを使うのも方法の1つだろう。

表2■代表的な形態素解析ツール

名称 URL
KAKASI http://kakasi.namazu.org/
ChaSen http://chasen.naist.jp/
MeCab http://mecab.sourceforge.net/

MeCabをインストールする

 まずは、MeCabをインストールしよう。MeCabのソース一式は、http://mecab.sourceforge.net/src/ からダウンロードできる。MeCabは、「プログラム本体」と「辞書」の2種類に分かれているので、それぞれをダウンロードしてインストールする。

1)本体

 mecab-0.96.tar.gzというファイル名(原稿執筆時点)で提供されている。次のようにtarで展開し、configureしてmake installするという標準的な手順でインストールすることができる。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

2)辞書

 辞書には「IPA辞書」と「Juman辞書」がある。推奨されているのはIAP辞書なので、これをダウンロードしてインストールする。原稿執筆時点では、mecab-ipadic-2.7.0-20070801.tar.gzというファイル名で提供されている。

 インストール方法は、本体とほぼ同じだが、configre時に「--with-charsetオプション」で文字コードを指定できる。標準はEUC-JPだ。このままでも問題ないが、ここでは、「--with-charset=utf8」とし、UTF-8の文字コードにしておくことにしよう。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

mecabコマンドによる動作テスト

 MeCabをインストールしたら、mecabコマンドを使って動作テストしてみよう。

 mecabコマンドを何もオプションを付けずに入力すると、1行単位での入力モードとなる。キーボードから1行分入力すると、それが形態素解析され、結果が表示される。下記において太字の部分が入力した部分だ。mecabコマンドを終了するには、「Ctrl」+「D」キーを押す。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

 この例に示したように、mecabコマンドの出力結果は、

表層形(タブ)品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音

という書式になる。「表層形」は、区切られた実際の語句だ。

 「品詞」は「名詞」「動詞」「形容詞」といった大まかな分類だ。「品詞細分類1」「品詞細分類2」は詳細な分類であり、例えば『「固有名詞」「人名」』『「固有名詞」「一般」』といった組み合わせになる。

 提供されている分類種別については、/usr/local/lib/mecab/dic/ipadicディレクトリにあるpos-id.defファイルに書かれているので、参照してほしい。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る