IDG コラム
2005/02/07 20:17 更新


スパム対策に欠かせないベイズ理論とは? (1/2)

スパム対策ソフトの多くが採用するベイジアンフィルターの基本的な考え方を紹介する。(IDG)

 測定できなければ科学は成立しない、と言う人がいる。ベイズ理論は、以前は測定できなかった物の測定方法を提示する。仮説や予測を検証し、結論や決断を洗練していく。この理論を利用したベイジアンフィルターは、今、スパムコントロールの分野でホットな話題となっている。

 扱う要因と可能性が限定されている場合、基本的な確率の計算は簡単だ。例えば、出走馬が10頭の競馬レースを考えてみよう。どの馬に賭けるかの根拠となる情報が、「出走馬が10頭」だけであれば、どの馬を選んでも、勝つチャンスは10分の1だ。しかし、こんな計算を競馬場に持ち込んだら、たちまち財布は空になってしまう。現実の世界はもっとはるかに複雑だ。そしてここに、ベイズ理論の出番がある。

 実際には、10頭の出走馬はそれぞれ、すでに少なくとも数レースは経験している。つまり、戦歴がある。ライトニングという馬が連戦連勝で、サンダーという馬が出走したすべてのレースで負けていれば、それはサンダーではなくライトニングに賭ける確実な根拠になる。

 現実に、レースに出る馬にはもっと多くの情報があるものだ。次のような情報が分かっているか、簡単に調べることができる。

血統 その馬は優勝馬の子孫か。きょうだい馬の成績はどうか。

天候による成績の違い 朝のうちに雨が降って重馬場になったら、その馬のスピードにどう影響するか。

枠順 内枠か外枠か。その馬はその位置でどう勝負するか。

前レースとのインターバル もし昨日長くハードなレースに出走していたら、今日はどう走るか。

レースの距離 同じ距離の過去のレースで、どんな成績を出しているか。

 他人の賭け方からも影響を受ける。それが馬の走りに影響を与えることはないが、勝った場合の配当金の額に明らかな影響を与える。

 こうした情報のすべては、10頭中の1頭という単純な予測よりもましな勝ち馬予想を可能にする。これらの要因を分析するのがベイズ処理だ。

 同様なことは、膨大な統計記録を扱うメジャーリーグの世界でも起きている。球団のオーナーとGMは、ベイズ分析を用いて選手のさまざまな状況や特殊な場面での働きを研究し、その情報を、ドラフトやトレードする選手の決定に役立てている。

ベイズ理論に基づくスパム対策

 ベイズ理論に基づくスパム対策アプリケーションは、ポール・グラハム氏が2002年に発表した論文「A Plan for Spam」に端を発する。このアプローチはすぐに多くの開発者に受け入れられた。ベイジアンスパムフィルターは、ある特定の言葉がスパムの兆候を示し、ほかの言葉はメッセージがまともであることを示す、という考え方に基づいている。内容採点型のほかのタイプのフィルターもこの考え方を用いているが、ベイジアンフィルターの場合、スパムの兆候を示す言葉と特徴の独自のリストを生成し、手動で作成するリストを必要としないという利点がある。

 ベイジアンフィルターはまず、スパムだと分かっているメールの集まりと、まともなものだと分かっている別のメール群を調べる(事前情報)。これら2組の内容――メール本文だけでなく、ヘッダ情報、メタデータ、単語の組み合わせ、フレーズ、さらには使用する色の指定情報を表すHTMLコードまで――を比較する。この結果から、以後受信するメールがスパムか否かを効果的に判断するための、言葉つまりトークンのデータベースを構築する。

 ベイジアンフィルターは、メッセージの文脈全体に配慮する。例えば、スパムメッセージの件名にはよく「無料」という単語が含まれているが、まともなメッセージにもこの単語が使われることがある。ベイジアンフィルターはこの単語に気付くが、メッセージ内のほかのトークンも調べる。なぜなら、大事なメールを間違えてスパムと判定すること(偽陽性の判断)は、スパムの一部をまともなメールとして通してしまうよりも問題が大きいからだ。

      | 1 2 | 次のページ

[IDG Japan]

Copyright(C) IDG Japan, Inc. All Rights Reserved.




キャリアアップ



エンタープライズ・ピックアップ

news008.jpg クラウドがもたらす本当のメリット:日本のクラウド市場の現状とクラウドの価値へのフォーカス
クラウドに関する企業ユーザーの声は厳しい。それが何を意味するのかがいまだ分かりにくく、まして何を提供してどのような利便性が生まれるのかの説明がなされていないからである。クラウドがもたらす変化や体験を正しく伝え、理解されることが、本当のクラウドを企業へ推進することにつながるのである。

news008.jpg 点検 ストレスなきデジタル情報整理術:「残業ゼロ」に向けて社員の能力を引き出す方法――元トリンプ社長の吉越氏
業務の生産性向上や効率化などの課題を解決するには、ITの活用に加えて、社員が活力を維持できることも重要になる。ストレスのない働き方を実現していくためのポイントを、「残業ゼロの仕事術」で知られる元トリンプ・インターナショナル・ジャパン社長の吉越浩一郎氏に聞いた。

news040.jpg 戦略コンサルタントの視点:無料化するクラウド、潜む落とし穴
戦略コンサルティングファーム独ローランド・ベルガーに、情報システムの新たな姿について寄稿してもらう。4回目は、クラウドコンピューティングの落とし穴について解説する。

news013.jpg ITmedia リサーチインタラクティブ 第5回調査:Google Appsへの期待が鮮明に――変わる企業の情報共有基盤
電子メールやスケジュール管理などの機能を持つコミュニケーションツールの入れ替え時期が迫っている。10年前に導入した企業が約4割に上り、今後の導入においてはGoogle Appsへの期待が高まっている。ITmedia エンタープライズとITRが実施した読者調査から、企業の情報共有基盤に対するニーズの変化を明らかにする。

news011.jpg ドジっ娘リーダー奮闘記:年上の男の子
年功序列型の組織ではあまり存在しなかった立場と年齢の逆転が実力主義の現在では当たり前になり、若いリーダーが年上のメンバーとの関係に戸惑うことが多いようです。今日は年上のメンバーへの接し方を、しんこちゃん&春美ちゃんの新米リーダーペアとともに学びましょう。