2008年、Webは文字列解析で変わっていく:まとめサイト2.0(6/8 ページ)
オルタナティブ・ブログを例に挙げて“まとめサイト”を作るための手法を紹介してきたこの連載。最終回は、文字列解析の自動化からキーワードを抽出するための方法を紹介しよう。
PerlからMeCabを使う
では次に、PerlからMeCabを使ってみよう。PerlからMeCabを利用するには、次のいずれかのモジュールを用いる。
1)MeCabモジュール
MeCabのサイトで配布されているもの。
2)Text::MeCabモジュール
cpanで配布されているもの。今回はインストールが容易なText::MeCabモジュールを用いる。
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
としてインストールしてほしい。
Text::MeCabによる形態素解析
Text::MeCabを使って形態素解析をするには、オブジェクトを作り、parseメソッドを呼び出す。
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
結果は、すでに示したmecabコマンドと同じ書式となる。タブより左の「表層形(語句そのもの)」は、surfaceメンバで、タブより右側の「カンマで区切られた品詞などの種別」はfeatureメンバで取得できる。
次に示すwhileループ処理をすると、結果を取得できる。
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
実行結果は、次のようになる。
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
すべてを合わせる
以上で、Webコンテンツをたどり、話題のキーワードの統計を作るための準備が整った。
すべてを合わせて、実際にそのようなプログラムを作ったものがリスト2だ。ここでは、オルタナティブ・ブログの「ブロガー一覧」から、それぞれのブロガー記事を辿り、使われている話題のキーワードを調べていくというものだ。
次ページに示すリスト2の出力結果は、例えば次のようになる。この結果を見るとわかるように、「の」とか「こと」とかが上位に来ているのは、あまり望ましいことではない。
これは、例えば「何文字以下なら除外する」とか「品詞の種類でさらに絞り込む」といった工夫をして、適切なキーワードが出てくるように検討すべきだろう。
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
Copyright © ITmedia, Inc. All Rights Reserved.