ベイズ理論とかベイズ推定とかベイジアンフィルタとか

主にspamメール対策として活用されている(た)らしい。

Googleの検索アルゴリズムとか。(昔の話かな?)

ベイズ理論は条件付き確率の話で、要点としては、ユーザがspam認定したメールの本文内に頻出する語句の確率と、spam認定していないメールの本文内に出現する語句の確率を求めて、閾値を導き出すという話。

(spamである確率を元にした)閾値を元にフィルタリングするアルゴリズムがベイジアンフィルタというもの。

母数が大きくなればなるほどその精度は高まっていく。(はず)

おそらく、精度問題となるのはゴミ情報だろう。

その辺りをどうするのか、というのも調べてみたいところ。

あとベイジアンフィルタのサンプルソースとかどこかにないのかなー。

この辺わかりやすい解説記事ですね。

http://www.atmarkit.co.jp/fsec……yes01.html