2008年、Webは文字列解析で変わっていく:まとめサイト2.0(5/8 ページ)
オルタナティブ・ブログを例に挙げて“まとめサイト”を作るための手法を紹介してきたこの連載。最終回は、文字列解析の自動化からキーワードを抽出するための方法を紹介しよう。
これ以降後半では、MeCabを使って形態素解析し、HTMLコンテンツからキーワードを抽出してみる。
MeCabによる形態素解析
形態素解析をするためのツールのうちフリーなライセンスで使える代表的なものは、表2に示す3つである。
今回は、この中の「MeCab(和布蕪)」を用いる。
MeCabは、「京都大学情報学研究科」と「日本電信電話株式会社コミュニケーション科学基礎研究所」の共同研究ユニットプロジェクトによって開発されたオープンソース形態素解析エンジンだ。平均的にKAKASIやChaSenよりも高速に動作する。
Yahoo!デベロッパーネットワークは、形態素解析Webサービスを提供している。サーバに何かソフトをインストールせずに形態素解析をしたいという場面では、こういったWebサービスを使うのも方法の1つだろう。
表2■代表的な形態素解析ツール
名称 | URL |
---|---|
KAKASI | http://kakasi.namazu.org/ |
ChaSen | http://chasen.naist.jp/ |
MeCab | http://mecab.sourceforge.net/ |
MeCabをインストールする
まずは、MeCabをインストールしよう。MeCabのソース一式は、http://mecab.sourceforge.net/src/ からダウンロードできる。MeCabは、「プログラム本体」と「辞書」の2種類に分かれているので、それぞれをダウンロードしてインストールする。
1)本体
mecab-0.96.tar.gzというファイル名(原稿執筆時点)で提供されている。次のようにtarで展開し、configureしてmake installするという標準的な手順でインストールすることができる。
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
2)辞書
辞書には「IPA辞書」と「Juman辞書」がある。推奨されているのはIAP辞書なので、これをダウンロードしてインストールする。原稿執筆時点では、mecab-ipadic-2.7.0-20070801.tar.gzというファイル名で提供されている。
インストール方法は、本体とほぼ同じだが、configre時に「--with-charsetオプション」で文字コードを指定できる。標準はEUC-JPだ。このままでも問題ないが、ここでは、「--with-charset=utf8」とし、UTF-8の文字コードにしておくことにしよう。
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
mecabコマンドによる動作テスト
MeCabをインストールしたら、mecabコマンドを使って動作テストしてみよう。
mecabコマンドを何もオプションを付けずに入力すると、1行単位での入力モードとなる。キーボードから1行分入力すると、それが形態素解析され、結果が表示される。下記において太字の部分が入力した部分だ。mecabコマンドを終了するには、「Ctrl」+「D」キーを押す。
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
この例に示したように、mecabコマンドの出力結果は、
表層形(タブ)品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
という書式になる。「表層形」は、区切られた実際の語句だ。
「品詞」は「名詞」「動詞」「形容詞」といった大まかな分類だ。「品詞細分類1」「品詞細分類2」は詳細な分類であり、例えば『「固有名詞」「人名」』『「固有名詞」「一般」』といった組み合わせになる。
提供されている分類種別については、/usr/local/lib/mecab/dic/ipadicディレクトリにあるpos-id.defファイルに書かれているので、参照してほしい。
Copyright © ITmedia, Inc. All Rights Reserved.