検索
特集

2008年、Webは文字列解析で変わっていくまとめサイト2.0(6/8 ページ)

オルタナティブ・ブログを例に挙げて“まとめサイト”を作るための手法を紹介してきたこの連載。最終回は、文字列解析の自動化からキーワードを抽出するための方法を紹介しよう。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

PerlからMeCabを使う

 では次に、PerlからMeCabを使ってみよう。PerlからMeCabを利用するには、次のいずれかのモジュールを用いる。

1)MeCabモジュール

 MeCabのサイトで配布されているもの。

2)Text::MeCabモジュール

 cpanで配布されているもの。今回はインストールが容易なText::MeCabモジュールを用いる。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

としてインストールしてほしい。

Text::MeCabによる形態素解析

 Text::MeCabを使って形態素解析をするには、オブジェクトを作り、parseメソッドを呼び出す。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

 結果は、すでに示したmecabコマンドと同じ書式となる。タブより左の「表層形(語句そのもの)」は、surfaceメンバで、タブより右側の「カンマで区切られた品詞などの種別」はfeatureメンバで取得できる。

 次に示すwhileループ処理をすると、結果を取得できる。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

 実行結果は、次のようになる。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

すべてを合わせる

 以上で、Webコンテンツをたどり、話題のキーワードの統計を作るための準備が整った。

 すべてを合わせて、実際にそのようなプログラムを作ったものがリスト2だ。ここでは、オルタナティブ・ブログの「ブロガー一覧」から、それぞれのブロガー記事を辿り、使われている話題のキーワードを調べていくというものだ。

 次ページに示すリスト2の出力結果は、例えば次のようになる。この結果を見るとわかるように、「の」とか「こと」とかが上位に来ているのは、あまり望ましいことではない。

 これは、例えば「何文字以下なら除外する」とか「品詞の種類でさらに絞り込む」といった工夫をして、適切なキーワードが出てくるように検討すべきだろう。

*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る