2008年、Webは文字列解析で変わっていく：まとめサイト2.0（5/8 ページ）

オルタナティブ・ブログを例に挙げて“まとめサイト”を作るための手法を紹介してきたこの連載。最終回は、文字列解析の自動化からキーワードを抽出するための方法を紹介しよう。

[大澤文孝，ITmedia] PC用表示関連情報

LINE

Hatena

　これ以降後半では、MeCabを使って形態素解析し、HTMLコンテンツからキーワードを抽出してみる。

MeCabによる形態素解析

　形態素解析をするためのツールのうちフリーなライセンスで使える代表的なものは、表2に示す3つである。

　今回は、この中の「MeCab（和布蕪）」を用いる。

　MeCabは、「京都大学情報学研究科」と「日本電信電話株式会社コミュニケーション科学基礎研究所」の共同研究ユニットプロジェクトによって開発されたオープンソース形態素解析エンジンだ。平均的にKAKASIやChaSenよりも高速に動作する。

　Yahoo!デベロッパーネットワークは、形態素解析Webサービスを提供している。サーバに何かソフトをインストールせずに形態素解析をしたいという場面では、こういったWebサービスを使うのも方法の1つだろう。

表2■代表的な形態素解析ツール

　まずは、MeCabをインストールしよう。MeCabのソース一式は、http://mecab.sourceforge.net/src/ からダウンロードできる。MeCabは、「プログラム本体」と「辞書」の2種類に分かれているので、それぞれをダウンロードしてインストールする。

1）本体

　mecab-0.96.tar.gzというファイル名（原稿執筆時点）で提供されている。次のようにtarで展開し、configureしてmake installするという標準的な手順でインストールすることができる。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

2）辞書

　辞書には「IPA辞書」と「Juman辞書」がある。推奨されているのはIAP辞書なので、これをダウンロードしてインストールする。原稿執筆時点では、mecab-ipadic-2.7.0-20070801.tar.gzというファイル名で提供されている。

　インストール方法は、本体とほぼ同じだが、configre時に「--with-charsetオプション」で文字コードを指定できる。標準はEUC-JPだ。このままでも問題ないが、ここでは、「--with-charset=utf8」とし、UTF-8の文字コードにしておくことにしよう。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

　MeCabをインストールしたら、mecabコマンドを使って動作テストしてみよう。

　mecabコマンドを何もオプションを付けずに入力すると、1行単位での入力モードとなる。キーボードから1行分入力すると、それが形態素解析され、結果が表示される。下記において太字の部分が入力した部分だ。mecabコマンドを終了するには、「Ctrl」＋「D」キーを押す。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

　この例に示したように、mecabコマンドの出力結果は、

表層形（タブ）品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音

という書式になる。「表層形」は、区切られた実際の語句だ。

　「品詞」は「名詞」「動詞」「形容詞」といった大まかな分類だ。「品詞細分類1」「品詞細分類2」は詳細な分類であり、例えば『「固有名詞」「人名」』『「固有名詞」「一般」』といった組み合わせになる。

　提供されている分類種別については、/usr/local/lib/mecab/dic/ipadicディレクトリにあるpos-id.defファイルに書かれているので、参照してほしい。