オルタナティブ・ブログを例に挙げて“まとめサイト”を作るための手法を紹介してきたこの連載。最終回は、文字列解析の自動化からキーワードを抽出するための方法を紹介しよう。
このコンテンツは、オンライン・ムックPlus「まとめサイト2.0」の一部です。関連する記事は、こちらでご覧になれます。
前回は、Perlモジュールである「Web::Scraper」を使ったスクレイピングについて説明した。Webページ(HTML)は、「構造」と「デザイン」面で比較的分離が進んできたため、CSSセレクタによるスクレイピングが有効であることが分かったはずだ。
今回の最終回では、コンテンツの自動収集と統計手法について考えてみよう。
記事内で扱っていくのは、幾つかのコンテンツをたどって、「利用頻度の高い語句を集め、話題となっているキーワードを見つけよう」というものだ。
近年ブログのポータル上などでは、話題となっているキーワードを「利用頻度に応じたフォントサイズ」で示し、クリックすると該当の記事一覧が表示されるという仕組みが実装されているものが多い。
オルタナティブ・ブログにも似たようなものとして「話題のキーワード」が見られる。キーワードをクリックすると、Googleによる検索結果が表示される(図1)。
このような「話題のキーワード」を作るには、主に3つの方法がある。
1)表示するキーワードを作為的に決める方法
1つは運営者が作為的に、現在、注目されそうな語句を登録するというものだ。いわば、時期的に話題となりそうな語句を並べておくものであり、例えば12月になれば「クリスマス」、1月になれば「お正月」といった語句を手動で並べるといった具合だ。
ショッピングサイトなどでは、SEO対策として、このような工夫が見られることもある。
2)記事に付けられたタグの統計集計を行う方法
ブログを書いた経験のある読者なら分かるかもしれないが、ブログシステムの多くには、記事を投稿する時に、その記事に「タグ」というキーワードを関連付けることができる機能がある。
ブログシステムは、そのタグを集計して、図1に示したように整形する機能をもっているものが多い。このような仕組みを「タグクラウド(tag cloud)」と呼ぶ。
この方法では、記事の作成者が意図的に付けたタグを利用することから、≪1)の作成者が手動でキーワードを作るというものと似ている。しかしキーワードの利用頻度の統計も行われることから、作成の手間を要しない。
3)記事をさかのぼり、語句の登場頻度を調べる
最後の方法は、サイト内のHTML記事を総舐めし、それぞれの記事中の語句を実際にカウントするというものだ。この方法では、作成者の意図的なものではなく、実際の統計的な情報となる。
すべてが自動化されるため、もっとも手間がかからない反面、自動化された語句解析の結果、不適切な語句がキーワードとして選ばれてしまう問題も残る。
今回は上記の中で、3)の処理を実装してみよう。
Copyright © ITmedia, Inc. All Rights Reserved.