贝叶斯概率

贝叶斯概率

贝叶斯概率的核心问题是,如果我想知道条件A发生的时候,条件B发生的概率是多大。
有人会说这不就是简单的条件概率么?
条件概率 通常用于背景信息非常明确的情况。
一个袋子里有 3 个红球和 2 个黄球。如果你已经摸出了一个红球(事件 B 发生),那么剩下球中再摸到红球(事件 A)的概率是多少?
这里 。这种概率是直接观测到的结果,不需要逆向推导。

但是贝叶斯概率没这么简单,有时候我们不太好计算条件A发生的时候,条件B发生的概率。但是比较容易计算条件B发生的时候,条件A发生的概率。

比如,我们很容易计算得病的人试剂检测为阳性的概率。因为我们只需要在医院找到所以确诊的人测一遍就行了。

但是,我们求测试为阳性的人,得病的概率,就比较麻烦了。因为测试为阳性的人确诊是一个麻烦事,需要进一步检查。而且从可执行行角度也不太好操作,因为确认是一个比较花时间的过程,检测的人不一定愿意配合。

那是不是就不好计算了呢,不是的,有贝叶斯概率就好办。
这里我们假设得病为条件,阳性为条件

那阳性得病的概率记为,得病且是阳性记为
由贝叶斯公式:

进一步丰富我们的例子,假设这个病的发病概率是

  1. 得病的人,且测试是阳性的概率是
  2. 没得病,且测试是阳性的概率是

的值就是
是得病的概率,值为
是测试为阳性的概率,这个要分开看,一个是得病的人,一个是没得病的人。
假设,有人,按照发病概率,其中是没得病的人,是得病的人。

那么得病中检测是阳性的是

没得病中检测是阳性是

所以总阳性大概为人,那概率为

带入计算

也就是说检测为阳性并且得病的概率为

为什么有这样的结果

结果好像很让我们奇怪,为什么检测为阳性,但确诊的概率只有.

这是因为大量的人其实健康的,如果我们直接计算的话,可以这么算:

  • 得病中检测是阳性的是
  • 没得病中检测是阳性是

在这个阳性中,得病的人只占了个人,差不多是。因为不得病的人基数太大,里面假阳性的人占了很大比例,冲淡了结果。

总结

所以贝叶斯概率可以让我们使用逆概率的概率去推导出一个不太好计算出的条件概率值。

在贝叶斯概率中,根据前面数据得出来的概率叫先验概率,比如这里的。得病概率我们可以基于数据统计出来。

叫做似然概率,叫做标准化常量,没有这个值我们无法把值挪到0-1之间。

为什么叫做似然概率?其实他本质上还是条件概率,似然概率只是为了解释这个公式的,似然的意思是如果B成立A成立的概率有多大,这个值越大,对的影响也就愈大,而叫做后验概率,可以理解为结果。