メディア

スパム対策に欠かせないベイズ理論とは？（2/2 ページ）

» 2005年02月07日 20時17分公開

[IDG Japan]

前のページへ 1|2 　　　　　　

　ベイジアンフィルターの支持者らによれば、ベイジアンフィルターによってスパムと判断されるメッセージのうち、偽陽性のものは1％以下だという。

　しかし、ベイジアンスパムフィルターの本領は、その学習能力にある。ユーザーが新しいメッセージに印を付けると、フィルターはデータベースを更新し、新しいスパムのパターンとして認識するようになる。

補足――トーマス・ベイズとベイズの定理について

　英国の牧師、トーマス・ベイズ（1702～1761）は、「An Essay Towards Solving a Problem in the Doctrine of Chances」の著者として知られている。1763年、ベイズの死後に発表されたこの論文は、今日「ベイズの定理」として知られる、ある事が起きる確率を、関係はあるが別の事象に基づいて予測する方程式を示している。ここで私は「事象」という言葉を使ったが、これは、あるメッセージがスパムかどうかの判断のような、1つの言明もしくは命題の「真」を示すことと理解することもできる。

　方程式を紹介する前に、多少、統計学の表記法を確認しておこう。p(A)という式は、Aという事象が起きる可能性を示す。p(A|B)は、「事象Bがすでに起きている場合に、事象Aが起きる可能性」を示す。この表記法の下、ベイズの定理を示すと次のようになる。

p(A|B) = [ p(B|A) p(A) ] / p(B)

　ほとんどの読者にとって、この方程式が特に参考になるとは思わないし、数学の由来にこだわるつもりもない。統計学者はすでにこれを知っている。だがこの方程式は、ベイズ分析が事前情報を活用した計算に基づいていることをよく示している。

　ベイズ理論についてさらに知りたければ、エリエゼル・ユドコウスキー氏による、明確で詳しく、段階を追ったオンラインチュートリアル「An Intuitive Explanation of Bayesian Reasoning: Bayes' Theorem for the curious and bewildered; an excruciatingly gentle introduction」をお勧めする。読むには少なくとも30分はかかるが、読めばベイズ関連について、よく理解できるだろう。

（By Russell Kay, Computerworld US）