IDG コラム
2005/02/07 20:17 更新


スパム対策に欠かせないベイズ理論とは? (1/2)

スパム対策ソフトの多くが採用するベイジアンフィルターの基本的な考え方を紹介する。(IDG)

 測定できなければ科学は成立しない、と言う人がいる。ベイズ理論は、以前は測定できなかった物の測定方法を提示する。仮説や予測を検証し、結論や決断を洗練していく。この理論を利用したベイジアンフィルターは、今、スパムコントロールの分野でホットな話題となっている。

 扱う要因と可能性が限定されている場合、基本的な確率の計算は簡単だ。例えば、出走馬が10頭の競馬レースを考えてみよう。どの馬に賭けるかの根拠となる情報が、「出走馬が10頭」だけであれば、どの馬を選んでも、勝つチャンスは10分の1だ。しかし、こんな計算を競馬場に持ち込んだら、たちまち財布は空になってしまう。現実の世界はもっとはるかに複雑だ。そしてここに、ベイズ理論の出番がある。

 実際には、10頭の出走馬はそれぞれ、すでに少なくとも数レースは経験している。つまり、戦歴がある。ライトニングという馬が連戦連勝で、サンダーという馬が出走したすべてのレースで負けていれば、それはサンダーではなくライトニングに賭ける確実な根拠になる。

 現実に、レースに出る馬にはもっと多くの情報があるものだ。次のような情報が分かっているか、簡単に調べることができる。

血統 その馬は優勝馬の子孫か。きょうだい馬の成績はどうか。

天候による成績の違い 朝のうちに雨が降って重馬場になったら、その馬のスピードにどう影響するか。

枠順 内枠か外枠か。その馬はその位置でどう勝負するか。

前レースとのインターバル もし昨日長くハードなレースに出走していたら、今日はどう走るか。

レースの距離 同じ距離の過去のレースで、どんな成績を出しているか。

 他人の賭け方からも影響を受ける。それが馬の走りに影響を与えることはないが、勝った場合の配当金の額に明らかな影響を与える。

 こうした情報のすべては、10頭中の1頭という単純な予測よりもましな勝ち馬予想を可能にする。これらの要因を分析するのがベイズ処理だ。

 同様なことは、膨大な統計記録を扱うメジャーリーグの世界でも起きている。球団のオーナーとGMは、ベイズ分析を用いて選手のさまざまな状況や特殊な場面での働きを研究し、その情報を、ドラフトやトレードする選手の決定に役立てている。

ベイズ理論に基づくスパム対策

 ベイズ理論に基づくスパム対策アプリケーションは、ポール・グラハム氏が2002年に発表した論文「A Plan for Spam」に端を発する。このアプローチはすぐに多くの開発者に受け入れられた。ベイジアンスパムフィルターは、ある特定の言葉がスパムの兆候を示し、ほかの言葉はメッセージがまともであることを示す、という考え方に基づいている。内容採点型のほかのタイプのフィルターもこの考え方を用いているが、ベイジアンフィルターの場合、スパムの兆候を示す言葉と特徴の独自のリストを生成し、手動で作成するリストを必要としないという利点がある。

 ベイジアンフィルターはまず、スパムだと分かっているメールの集まりと、まともなものだと分かっている別のメール群を調べる(事前情報)。これら2組の内容――メール本文だけでなく、ヘッダ情報、メタデータ、単語の組み合わせ、フレーズ、さらには使用する色の指定情報を表すHTMLコードまで――を比較する。この結果から、以後受信するメールがスパムか否かを効果的に判断するための、言葉つまりトークンのデータベースを構築する。

 ベイジアンフィルターは、メッセージの文脈全体に配慮する。例えば、スパムメッセージの件名にはよく「無料」という単語が含まれているが、まともなメッセージにもこの単語が使われることがある。ベイジアンフィルターはこの単語に気付くが、メッセージ内のほかのトークンも調べる。なぜなら、大事なメールを間違えてスパムと判定すること(偽陽性の判断)は、スパムの一部をまともなメールとして通してしまうよりも問題が大きいからだ。

      | 1 2 | 次のページ

[IDG Japan]

Copyright(C) IDG Japan, Inc. All Rights Reserved.




キャリアアップ



エンタープライズ・ピックアップ

news004.jpg 世界で勝つ 強い日本企業のつくり方:利用契約の検討――グローバルクラウドで失敗しないために(前編)
2010年以降、クラウドサービスの利用がさらに加速する。サービスを利用する企業はプロバイダーのデータセンターに預けた自社情報を保護するために、法的な要素を理解しておかなければならない。企業が注意を払うべき法的な検討事項を整理する。

news001.jpg IT投資の新方程式:「Twitter使ってます」――現役MS社員が“社員力”を語る(前編)
マイクロソフトが掲げるプロモーションメッセージ「社員にチカラを。ITで企業力を。(以下、BIEB)」からは、ITで社員の生産性を向上することが業績の拡大につながる、といったニュアンスを感じる。そこで気になるのが「じゃあ、マイクロソフトの社員自身はどうなのよ?」ということ。3人の現役MS社員により実態が明らかになる……?

news010.jpg 産業構造を変えるか:「住宅クラウド」の衝撃
住宅都市工学研究所が進める「住宅クラウド」は、クラウドが企業のIT領域にとどまらず、ビジネスのやり方自体を変える可能性を示している。

news010.jpg オルタナティブな生き方 栗原進さん:ネットでリアルを楽しくしたい
SE出身の企業広報マンでありながら、趣味は落語で憧れの人はインディ・ジョーンズとアナログ全開の栗原さんに、ブログを書く理由やネットからはじまるコミュニケーションについて伺った。

news001.jpg 最強最速アルゴリズマー養成講座:トップクラスだけが知る「このアルゴリズムがすごい」――「探索」基礎最速マスター
プログラミングにおける重要な概念である「探索」を最速でマスターするために、今回は少し応用となる探索手法などを紹介しながら、その実践力を育成します。問題をグラフとして表現し、効率よく探索する方法をぜひ日常に生かしてみましょう。