记录学习过程中关于贝叶斯公式的理解
背景
今天在学习对数几率回归的过程中用到了极大似然法,在了解极大似然法的过程中又需要我们对贝叶斯公式做出更深刻的理解,因此,决定重新认识一下我们的好朋友贝叶斯公式:
P(A∣Bi)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)(i=1,2,…,n)
回顾
理解贝叶斯公式,首先需要回顾一下几个著名公式
条件概率公式
P(B∣A)=P(A)P(AB)
这一公式的理解起初也遇到了一些困难,但是通过绘制韦恩图得到了解决:
对于如上这一图示,用S表示面积,例如C的面积为S(C),那么P(A∣B)则可以表示为,A占B的面积百分比,及P(A∣B)=S(B)S(C),而P(B)则可表示为B占总体S的面积百分比,也就是P(B)=S(S)S(B),那么我们要求的也就是P(C),即C占S的面积百分比,显然可以使用P(A∣B)×P(B)的到,于是我们就得到了公式P(AB)=P(A∣B)×P(B),当B事件不为不可能事件时,即可得到条件概率公式。
全概率公式
全概率公式所描述的则是对于一个样本空间S的完备事件组,即:
A1∪A2∪⋯∪An=S
Ai∩Aj=∅(i=j)
有
P(A)=i=1∑nP(Bi)P(A∣Bi)
全概率公式讨论的是这样一种情况:
时间A的发生有各种可能的原因Bi。如果A是由原因Bi引起,则A发生的概率为全概率公式中的一项。每一个原因都可能导致A发生。故A发生的概率是全部原因引起A发生的概率的总和,即为全概率公式。
由此我们可以把全概率公式看成是由原因推结果的公式,每个原因对结果的发生有一定的作用,结果发生的可能性与各种原因的作用大小有关,全概率公式就表达了它们的关系。
贝叶斯公式
P(A∣Bi)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)(i=1,2,…,n)
贝叶斯公式便是由如上的两个公式推论而来,那么我们又该如何理解贝叶斯公式呢
事实上贝叶斯公式所表述的是一个在A事件已经发生的条件下,寻找导致A发生各种“原因”Bi的概率.
先验概率与后验概率
所谓先验概率与后验概率,通俗的理解就是:
- 由以往的数据分析所得的称为
先验概率
- 得到某些信息之后重新加以修正的概率成为
后验概率
下面通过一个例子来理解:
设机器调整良好时,产品合格率为95%,机器不良时合格率为50%.已知机器良好率为90%.现在已知某日生产的一件产品为合格品,求机器为良好的概率
我们使用:
-
A事件表示:”产品合格”
-
用B事件表示“机器良好”
那么根据该题建立数学模型为:
已知:
P(B)=0.9P(Bˉ)=0.1P(A∣B)=0.95P(A∣Bˉ)=0.5
求P(B∣A)
相信使用贝叶斯公式很快就能解出P(B∣A)≈0.945
那么在这个例子中:
- 机器良好的概率P(B)=0.9为先验概率
- 条件概率P(B∣A)≈0.945为后验概率
知道了先验和后验之后,我们再次来看看贝叶斯公式的另一形式:
P(A∣B)=P(B)P(B∣A)P(A)
其中P(A)和P(B)就是我们通常认为的先验概率(Prior Probability),而P(A∣B)就是我们认为的后验概率(Posterior Probability).
而用于计算的P(B∣A)我们称之为可能性(Likelihood)
总结
概率,数学在机器学习的应用中非常之多,考研阶段学习数学,往往只在意这个公式或者结论的推导过程,解题方法.而忽视了这个公式或者结论对现实的指导意义.
我认为数学应该是一门值得我们用一生去学习,温习的科目.在如今需要正儿八经的使用数学的阶段,应该把学习数学的思路进行转变.
参考文献
- 条件概率公式图解推导_平原的博客-CSDN博客_条件概率公式推导
- 全概率公式、贝叶斯公式 - 知乎 (zhihu.com)
- 详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解_nebulaf91的博客-CSDN博客_最大后验估计