数据发掘系列(二): 贝叶斯分类器

《决策与判断》中讲到人们都有保守主义情结,即使出现了新信息,也不愿意根据新信息来更新先验概率。用前面解释里面的话说就是:新信息是 B 事件不断发生,人们本应该根据这个信息去更新 A 事件发生的概率,但人们却更愿意固守之前估计的 A 事件发生的概率。

贝叶斯定理(Bayes Theorem)是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出理论,它是统计学一个基础定理。一方面,支持某项属性的事件发生得越多,则该事件发生的的可能性就越大;另一方面,一种事件发生的概率,会随着其他强相关属性发生概率的变化而变化。

公式

    \[P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(B|A)\times P(A)}{P(B)}\]

P(A)    : A 的先验概率,之所以称为“先验”是因为它不考虑任何 B 方面的因素。
P(B)    : B 的先验概率,也作标淮化常量(normalizing constant)。
P(A|B):已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A 的后验概率。
P(B|A):已知 A 发生后 B 的条件概率,也由于得自 A 的取值而被称作 B 的后验概率。

理解

公式的含义:在 B 出现的前提下,A 出现的概率等于 A 出现的前提下 B 出现的概率乘以 A 出现的概率再除以 B 出现的概率。通过联系 A 与 B,计算从一个事件发生的情况下另一事件发生的概率,即在B发生的情况下,A发生的概率。

统计学的说法:支持某项属性的事件发生得越多,则该事件发生的的可能性就越大。

也就是说,当你不能确定某一个事件发生的概率时,你可以根据与该事件本质属性相关的事件发生的概率,去推测该事件发生的概率。

一个例子

《决策与判断》中举了这样一个调查案例:

假设有两个各装了100个球的箱子,甲箱子中有70个红球,30个绿球,乙箱子中有30个红球,70个绿球。假设随机选择其中一个箱子,从中拿出一个球记下球色再放回原箱子,如此重复12次,记录得到8次红球,4次绿球。

问题:你认为被选择的箱子是甲箱子的概率有多大?

调查结果显示,大部分人都低估了选择的是甲箱子的概率。根据贝叶斯定理,正确答案是96.7%。下面来详细分析解答。

刚开始选择甲乙两箱子的先验概率都是50%,因为是随机二选一(这是贝叶斯定理二选一的特殊形式)。即有:

P(甲) = 0.5, P(乙) = 1 – P(甲);

这时在拿出一个球是红球的情况下,我们应该根据这个信息来更新选择的是甲箱子的先验概率:

P(甲|红球1) = P(红球|甲) × P(甲) / (P(红球|甲) × P(甲) + (P(红球|乙) × P(乙)))
P(红球|甲):甲箱子中拿到红球的概率
P(红球|乙):乙箱子中拿到红球的概率

因此在出现一个红球的情况下,选择的是甲箱子的先验概率就可被修正为:

P(甲|红球1) = 0.7 × 0.5 / (0.7 × 0.5 + 0.3 × 0.5) = 0.7

即在出现一个红球之后,甲乙箱子被选中的先验概率就被修正为:

P(甲) = 0.7, P(乙) = 1 – P(甲) = 0.3;

如此重复,直到经历8次红球修正(概率增加),4次绿球修正(概率减少)之后,选择的是甲箱子的概率为:96.7%。

参考

PS:后续会使用程序实现这个计算。

 

 

LEAVE A REPLY

loading