贝叶斯数学

刘三刀2023-05-07 27

贝叶斯(1702-1763) Thomas Bayes，英国数学家1702年出生于伦敦，做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论，并创立了贝叶斯统计理论，对于统计决策函数、统计推断、统计的估算等做出了贡献1763年发表了这方面的论著，对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作《机会的学说概论》发表于1758年。贝叶斯所采用的许多术语被沿用至今。

贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。

贝叶斯决策就是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策。

贝叶斯决策理论方法是统计模型决策中的一个基本方法，其基本思想是：

1、已知类条件概率密度参数表达式和先验概率。

2、利用贝叶斯公式转换成后验概率。

3、根据后验概率大小进行决策分类。

他对统计推理的主要贡献是使用了"逆概率"这个概念，并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理，这一定理可用一个数学公式来表达，这个公式就是著名的贝叶斯公式。贝叶斯公式是他在1763年提出来的：

假定B1,B2,……是某个过程的若干可能的前提，则P(Bi)是人们事先对各前提条件出现可能性大小的估计，称之为先验概率。如果这个过程得到了一个结果A，那么贝叶斯公式提供了我们根据A的出现而对前提条件做出新评价的方法。P(Bi∣A)既是对以A为前提下Bi的出现概率的重新认识，称 P(Bi∣A)为后验概率。经过多年的发展与完善，贝叶斯公式以及由此发展起来的一整套理论与方法，已经成为概率统计中的一个冠以“贝叶斯”名字的学派，在自然科学及国民经济的许多领域中有着广泛应用。

引入：

定义： （英语：Bayes' theorem）是概率论中的一个定理，描述在已知一些条件下，某事件的发生几率。比如，如果已知某癌症与寿命有关，使用贝叶斯定理则可以透过得知某人年龄，来更加准确地计算出他罹患癌症的几率。———— wiki解释

贝叶斯公式：

事件B发生的条件下，事件A发生的概率为：

事件A发生的条件下，事件B发生的概率为：

由此可得：

得贝叶斯公式如下：

贝叶斯公式：

上式可以理解为：

所以贝叶斯的底层思想为：

如果掌握了一个事情的全部信息，就可以计算出一个客观概率(古典概率、正向概率)，但是绝大多数决策面临的信息都是不全的，在有限信息的条件下，尽可能预测一个好的结果，也就是在主观判断的基础上，可以先估计一个值（先验概率），然后根据观察的新信息不断修正（可能性函数）。

问题：有两个一模一样的碗，1号碗里有30个巧克力和10个水果糖，2号碗里有20个巧克力和20个水果糖。然后把碗盖住。随机选择一个碗，从里面摸出一个巧克力。这颗巧克力来自1号碗的概率是多少？

求解问题：

已知信息：

应用贝叶斯：

问题：假设艾滋病的发病率是0001，即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病，它的准确率是099，即在患者确实得病的情况下，它有99%的可能呈现阳性。它的误报率是5%，即在患者没有得病的情况下，它有5%的可能呈现阳性。现有一个病人的检验结果为阳性，请问他确实得病的可能性有多大？

求解问题：

已知信息:

应用贝叶斯定理:

造成这么不靠谱的误诊的原因，是我们无差别地给一大群人做筛查，而不论测量准确率有多高，因为正常人的数目远大于实际的患者，所以误测造成的干扰就非常大了。根据贝叶斯定理，我们知道提高先验概率，可以有效的提高后验概率。所以解决的办法倒也很简单，就是先锁定可疑的样本，比如10000人中检查出现问题的那10个人，再独立重复检测一次，因为正常人连续两次体检都出现误测的概率极低，这时筛选出真正患者的准确率就很高了，这也是为什么许多疾病的检测，往往还要送交独立机构多次检查的原因。

问题：最初的垃圾邮件过滤是靠静态关键词加一些判断条件来过滤，效果不好，漏网之鱼多，冤枉的也不少。2002年，Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。因为典型的垃圾邮件词汇在垃圾邮件中会以更高的频率出现，所以在做贝叶斯公式计算时，肯定会被识别出来。之后用最高频的15个垃圾词汇做联合概率计算，联合概率的结果超过90%将说明它是垃圾邮件。

不过这里还涉及到一个问题，就是单个关键词的概率（单个条件）无论如何再高，这封邮件仍然有可能不是垃圾邮件，所以在此处应用贝叶斯定理时，我们显然要用到多个条件，也就是计算这个概率：

Paul Graham 的做法是，选出邮件中 P（垃圾邮件|检测到“X”关键词）最高的 15个词，计算它们的联合概率。（如果关键词是第一次出现，Paul Graham 就假定这个值等于 04 ，也即认为是negative normal）。

后续更新……

参考文章1：(知乎)小白之通俗易懂的贝叶斯定理（Bayes' Theorem）

参考文章2：()贝叶斯公式/贝叶斯法则/贝叶斯定理

朴素贝叶斯分类器是一种应用基于独立假设的贝叶斯定理的简单概率分类器，之所以成为朴素，应该是Naive的直译，意思为简单，朴素，天真。

1、贝叶斯方法

贝叶斯方法是以贝叶斯原理为基础，使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础，贝叶斯分类算法的误判率是很低的。

贝叶斯方法的特点是结合先验概率和后验概率，即避免了只使用先验概率的主观偏见，也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率，同时算法本身也比较简单。

2、朴素贝叶斯算法

朴素贝叶斯算法（Naive Bayesian algorithm) 是应用最为广泛的分类算法之一。

朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化，即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重，也没有哪个属性变量对于决策结果占有着较小的比重。

虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果，但是在实际的应用场景中，极大地简化了贝叶斯方法的复杂性。

扩展资料

研究意义

人们根据不确定性信息作出推理和决策需要对各种结论的概率作出估计，这类推理称为概率推理。概率推理既是概率学和逻辑学的研究对象，也是心理学的研究对象，但研究的角度是不同的。概率学和逻辑学研究的是客观概率推算的公式或规则。

而心理学研究人们主观概率估计的认知加工过程规律。贝叶斯推理的问题是条件概率推理问题，这一领域的探讨对揭示人们对概率信息的认知加工过程与规律、指导人们进行有效的学习和判断决策都具有十分重要的理论意义和实践意义。

观点应该跟着事实不断修订。坚定不移不对，听风就是雨也不对——科学的修订，就是贝叶斯方法。

贝叶斯公式在概率论与数理统计中必学的概念，要真正的达到应用这个概念还得稍微理解一下公式：

贝叶斯公式完全是建立在一个等式P(A)P(B|A) = P(B) P(A|B)之上，而P(A)P(B|A)和P(B)P(A|B)的结果都是P(AB)，意思是事件A和事件B同时发生的概率。等式中P(A|B)指的是条件概率，即在B已经发生的情况下，A发生的概率，如果B代表下雨的概率，A代表一个人出门带伞的概率，那P(A|B)本质上还是带伞的概率，不过是下雨天的情况下一个人出门带伞的概率。根据经验可以得出，P(A|B)应该是大于P(A)的。平时我们对存在外星人（记作事件A）这一观点的相信的概率可以用P(A)来表示，一般而言咱都不怎么相信外星人存在的，P(A)应该无限趋于0，可是突然有一天一个正儿八经的专家说证明确实有外星人存在（记为事件B），那此时，我们相信外星人存在的概率已经不是P(A)了，而是P(A|B)，而这个值可能就要比0大不少了。要是某一天，大半个地球的人都说看到了外星人（记为C），那我们此时相信外星人存在的概率P(A|C)可能就要提高到1，也就是几乎确定就是有外星人存在。

对上面的等式稍微一变形，就可以得到贝叶斯公式： P(A|B) = P(A) P(B|A) / P(B) ，其中P(A)是我们原来对一件事的原有的判断，叫做先验概率；P(A|B)就代表了我们在得到一些证据B之后对原来事物的概率，叫做后验概率。别看公式形式比较复杂，但是有个简单的理解方法：我们把等式右边 P(B|A) / P(B) 看作一个整体，称之为似然比（可以简单理解成证据的有效程度），那么整个公式便可以简单理解成P(你后来的观点）= 似然比 P(你一开始的观点)。当有新的证据出现之后，别忙着不变，也别忙着立马推翻自己的态度，看看证据的有效性如何，如果真的有效，那就多调整一点自己的态度，如果证据的力度不大，那就少调整一点。卡尔·萨根说过一句话：“超乎寻常的论断需要超乎寻常的证据”，在贝叶斯看来这句话的意思不过是，要想从根本上说服我，你必须拿出唬得住我的东西来。而佛说：哪有什么一定之论，在我眼里，全是概率。

如果只想知道哲学上的东西，看官可就此打住，可如果看知道贝叶斯的具体威力，我们不妨来搞一下数学。在狼来了的故事中，我们用A表示小孩可信，B表示小孩说谎。不妨设我们过去对小孩子的印象为P(A)=08，P(~A)=02。现在我们来计算P(A|B)，即小孩说了一次慌滞后的可信程度。在公式中P(B)表示在任何条件下小孩子说谎的概率，可以拆分为P(A)P(B|A)和P(~A)P(B|~A)，P(B|A)和P(B|~A)分别表示在我们相信他时他说谎的概率和我们不相信他时他说谎的概率，分为设之为01和05。有一天小孩是说狼来了，80%的可能性狼来了，我们想吃狼肉，于是我们第一次上山打狼，发现狼没有来，即小孩子说了谎。此时P(A|B) = P(A) P(B|A) / P(B) = 0801 / (0801 + 0205) = 0444，表明我们上一次当之后对这个小孩的可信程度从08下降到了0444。在此基础之上，有一天小孩又说狼来了，有444%的可能性狼来了，本来不想去的，但是上次没吃到狼肉心里痒痒，于是我们又上山打狼，结果小孩又对我们撒了一次谎，狼没有来。我们对他的可信程度P(A|B) =044401 /(044401 +055605) = 0138,我们上了这小孩两次当，对小孩的可信程度由原来的08下降到了0138。第三次小孩又喊狼来了，我们把小孩子吃了。

有时候明明可以很快用贝叶斯公式解决问题谋得巨大财富，结果我们却迟迟不动，很多时候，并不是贝叶斯公式太难，只不过是我们不知道贝叶斯公式使用的时机。贝叶斯的应用领域极其广泛，语音识别、垃圾邮件过滤、油井钻探、FDA批准新药、Xbox给你的游戏水平打分……各种你想到和想不到的应用，都在使用贝叶斯方法。但是扯这些东西和我们有点儿远，我们的市井生活中什么时候该用贝叶斯公式呢？很简单：只要还没得到最终结果，就可以请贝叶斯爸爸出场帮你作弊。你和两位猥琐而胆小的基友在操场上看到了一位身材火辣的性感女神，决定写纸条抽签选一人去要****。每人抽到一个签，中彩概率都是1/3，很公平。你抽到了一张签，觉得自己不会那么背中彩，刚准备看，突然一个基友摊出了自己的纸条，哈哈大笑说：“看不是我，你们两个其中之一中彩了。”此时，天真的你觉得那有啥，反正大家中彩的概率依旧还是1/3，而且我运气好，不可能是我。在准备亮出你的纸条的一刹那见，你虎躯一震，隐隐约约感到有些不对劲: 三个人只有一个出了结果，还没有得到最终结果，我可以叫贝叶斯爸爸来帮忙算一下概率。

贝叶斯看了，笑了，说：我们记你中彩为事件A，P(A)=1/3，那个已经摊出纸条的基友没有中彩为事件B，P(B)=2/3，傻子，你现在中彩的概率P(A|B)=P(A) P(B|A) / P(B) = (1/3) 1 /（2/3）= 1/2。心中暗自骂到：卧槽，他看了一眼他自己的纸条，我的gay率就由1/3变成1/2了，还好发现得早。于是机智的你抢过另一个基友还没看的纸条，把它和你的纸条一起吃掉，说：“我太饿了，我们重新抽签吧。“

贝叶斯估计，是在给定训练数据D时，确定假设空间H中的最佳假设。最佳假设：一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。

贝叶斯，英国数学家。1702年出生于伦敦，做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论，并创立了贝叶斯统计理论，对于统计决策函数、统计推断、统计的估算等做出了贡献。1763年发表了这方面的论著，对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作《机会的学说概论》发表于1758年。概率论是逻辑严谨推理性强的一门数学分科，贝叶斯公式是概率论中较为重要的公式，贝叶斯所采用的许多术语被沿用至今。

什么贝叶斯定理、贝叶斯方法、贝叶斯网络这种，外行人一听头就疼，这完全没有乘法分配律乘法结合律来的亲民啊！实际上，他确实不亲民（摊手）

那我们就从如何着手去处理贝叶斯网络为目标，好好看，好好学（这是文章基于的框架结构，在此基础上进行了补充说明）。

咱先整抓球，一个不透明的带子，里面有4个除了颜色完全相同的球：2红1绿1蓝。此时你去随手抓，那问你抓到各个颜色球的概率是多少？我想是个正常人都会说：那不50%、25%、25%？这是不论你取多少次，概率θ始终不变的事件，即不随观察结果X的变化而变化。

显然啊！那不然会是什么呢？

这种观点长期统治着人们，或者说，统治着正常人，这叫频率派观点。直到有个叫Thomas Bayes的人出来搅局。

贝叶斯不介绍了，生前民间学术“屌丝”，身后颠覆了概率史啊。这里说一下他最终发表的一篇多年后轰动世界的文章：An essay towards solving a problem in the doctrine of chances（机遇理论中一个问题的解）

回到上面这个问题，袋子里取红球的概率θ是多少？正常人都说50%，贝叶斯说“NO！”。他认为取的红球的概率是个不确定的值，因为其中含有机遇的成分。

是不是不好理解了？那我们换个例子来讲（这个抓球有什么机遇，我也不懂，但大佬都以这些开头，所以咱换个例子）

78泽干了两年程序员，现在想自己创业开个外包公司。这个结果无非“走向人生巅峰”和“欠一屁股债”，要么成功要么失败。现在我们大家来估计一下他成功的概率有多大？你们可能会说：“这谁啊，两年就创业，吓他个鬼，不可能的。成功几率最多5%。”而我对他的为人比较了解，他有想法，有方法，有思路，还有毅力，能吃苦，还有情调，有凝聚力，还为他人着想等，那我就估计他成功的概率有75%以上。

这种不同于最开始的“非黑即白、非0即1”的思考方式，就是贝叶斯式的思考方式。

频率派把需要推断的参数θ看作是固定的未知常数，即概率虽然是未知的，但最起码是确定的一个值，同时，样本X是随机的，即不管球几红几绿，事件的概率θ一定。所以频率派重点研究样本空间，大部分的概率计算都是针对样本X的分布；

贝叶斯派认为参数θ是随机变量，而样本X是固定的。由于样本X固定，所以他们重点研究的是参数θ的分布。

这样，贝叶斯派提出了一个思考问题的固定模式：

先验分布π（θ）+ 样本信息X ==> 后验分布π（θ|x）

这意味着，新观察到的样本信息将修正人们以前对事物的认知。换而言之，在得到新的样本信息前，人们对θ的认知是先验分布π（θ），在得到新的样本信息X后，人们对θ的认知受其影响变为π（θ|x）。

先验信息一般来源于经验和历史资料，比如在S7以前的SKT VS RNG，解说总会根据历年比赛结果进行一个胜负的预判来相应解说。但从S7,S8这两个赛季后，发现韩国队不行了！那么现在你再看SKT VS RNG，可就不一定了不是吗？那是不是就是X影响了π（θ）得到了π（θ|x）。

后验分布π（θ|x）一般也认为是在给定样本X的情况下的θ条件分布，而使π（θ|x）达到最大的值θMD，这个θMD称谓最大后验估计，类似于统计学的极大似然估计。

这里插曲一下，似然和概率，很多人其实都不明白这是啥区别。似然（likelihood）在非正式场合中和概率（probability）几乎相同。但在统计学中完全不同。概率是在特定环境下某件事发生的可能性，也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性；而似然正好相反，是在确定的结果下去推测产生这个结果的可能环境（参数）。

结果和参数相互对应的时候，似然和概率在数值上是相等的。了解更多似然，点击这里

当然除了上述思考模式，还有举世闻名的贝叶斯定理。

先回顾几个名词

条件概率（又称后验概率）就是事件A在另外一个事件B已经发生的条件下发生的概率P（A|B）：

自己花几个圆圈就能推导出这个公式了。

联合概率表示两个事件共同发生的概率：

边缘概率（又称先验概率）是某个事件发生的概率。边缘概率是这样得到的：在联合概率中，把最终结果中那些不需要的事件通过合并成它们的全概率从而消去它们（对离散随机变量用求和得全概率，连续随机变量用积分得全概率），这称为边缘化（marginalization），比如A的边缘概率表示为P（A）,B的边缘概率表示为P（B）。

现在考虑问题：P（A|B）是在B发生的情况下A发生的可能性。

（1）首先，B发生之前，对事件A发生的基本概率判断为A的先验概率P（A）；

（2）其次，事件B发生后，我们对事件A发生概率重新评估，称为A的后验概率P（A|B）；

（3）类似，事件A发生前，对B的先验概率P（B）；

（4）事件A发生后，B后验概率P（B|A）。

贝叶斯定理如下：

推导证明如下：

上式两边同时除以P（B），若P（B）非零，变得到贝叶斯定理公式表达式。

上述为传统的贝叶斯公式写法，还有另一种写法，称之为贝叶斯推断。

对条件概率公式进行变形，得到如下形式：

P（A）称为先验概率，P（A|B）为后验概率，而P（B|A）/P（B）称之为可能性函数（likelyhood），这是一个调整因子，使得预估概率更接近真实概率。

贝叶斯推断的含义：我们先预估一个先验概率，然后加入实验结果，看这个实验到底是增强还是削弱了先验概率，由此得到更接近事实后验概率。

这里，可能性函数>1，意味着先验概率被增强，事件A的发生可能性变大；可能性函数=1,意味着B事件无助于判断事件A的可能性；可能性函数<1，意味着先验概率被削弱，事件A的可能性变小。

举例加深理解：

1水果糖问题

两个一模一样的碗，一号碗中有30颗水果糖和10颗巧克力，二号碗有水果糖和巧克力各20颗。现在随机选择一个碗，从中摸出一颗糖，发现时水果糖。请问这个水果糖来自一号碗的概率是多少？

解：我们假定，H1表示碗一，H2表示碗二，有条件已知P（H1）=P（H2），即在取出水果糖之前，这两个碗被选中的概率相同。因此P（H1）=05，此为先验概率。

再假定E表示水果糖，所以问题变为已知E的情况下，来自碗一的概率有多大：求P（H1|E）。我们把这个称为后验概率，即E事件发生后，对P（H1）的修正。

根据条件概率公式，得到

已知：P（H1）=05，P（E|H1）=075，那么求出P（E）就可以得到答案，根据全概率公式（推导根据条件概率公式推就行了）

得到：

将已知带入得P（E）=0625，最后将结果带入原方程，得到P（H1|E）=06，也就是说取出水果糖后，H1事件的可能性得到了增强（P（E|H1）/P（E）=075/0625=12>1）。

贝叶斯公式还有一个最经典也是目前最广泛的应用：拼音纠错，谷歌的拼音检查就是基于贝叶斯方法。

《人工智能：现代方法》作者之一Peter Norvig曾写一篇介绍如何写一个拼写检查的文章（原文），使用的也是贝叶斯方法。

用户输入一个单词，可能拼写正确，也可能拼写错误。如果把拼写正确的情况记做c，错误记做w，那么拼写检查要做的事情就是：在发生w的情况下，试图推断出c，换而言之，就是已知w，然后在若干个备选方案中，找出可能性最大的那个c，即求P（c|w）的最大值。

由于对于所有备选的c来说，对应的都是同一个w，所以它们的P（w）相同，因此我们只需要最大化P（w|c）P（c）。

其中P（c）表示某个正确的单词出现的“概率”，它可以用“频率”代替。如果我们有一个足够大的文本库，那么这个文本库中每个单词的出现频率，就相当于它的发生概率。某个词的出现频率越高，P（c）就越大。比如在你输入一个错误的单词“tes”的时候，系统更倾向于“tea”，而不是“tee”，因为tea更常见。

当然这其中要是深究，还有更多的可能性，比如说错误字母与正确字母在键盘上的位置，也许你是按错了所以会拼错，但实际上你要拼写的单词就是那个频率低的单词，是不是？在这里，初学，咱先放一放。

P（w|c）表示在试图拼写c的情况下，出现拼写错误w的概率。为了简化问题，假定两个单词在字形上越接近，就越有可能拼错，P（w|c）就越大。举例来说，相差一个字母的拼法，就比相差两个字母的拼法，发生概率越高。你想拼写“july”，错误拼成“julw”的可能性就比错拼成“jullw”高很多。一般把这种问题称为“编辑距离”。

贝叶斯网络（Bayesian Network），又称信念网络（Belief Network），或有向无环图模型，十一中概率图模型。它是一种模拟人类推理过程中因果关系的不确定性处理模型，其网络拓扑结构是一个有向无环图（DAG，direvted acyclic graphical）。

贝叶斯网路中节点表示随机变量，认为有因果关系（或非条件独立）的变量或命题则用剪头来连接。

例如，假设节点E直接影响到节点H，即E-->H，则用从E指向H的箭头建立节点E到节点H的有向弧（E，H），权值（即连接强度）用条件概率P（H|E）来表示。

简而言之，把某个研究系统中涉及的随机变量，根据是否条件独立绘制在一个有向图中，就形成了贝叶斯网络。其主要用来描述随机变量之间的条件依赖，用圈表示随机变量（random variables），用箭头表示条件依赖（conditional dependencies）。

关于随机变量，这里不同于普通公式中的x，z那种未知数，之前专门研究过，但是参考的网址找不到了。随手记了一些笔记，分享一下（字丑）：

令G=（I,E）表示一个有向无环图（DAG），其中I代表图形中所有的节点的集合，而E代表有向连接线段的集合，且令X=（Xi），i∈I为其有向无环图中某一节点i所代表的随机变量，若节点X的联合概率可以表示成：

则称X为相对于一有向无环图G的贝叶斯网络，其中，pa（i）表示节点i的“因”，也可以理解为“父节点”。

给订如下图所示的一个贝叶斯网络：

由图可知：

（1）x1，x2，，x7的联合分布为：

（2）x1和x2独立（head-to-head）；

（3）x6和x7在x4给订的条件下独立（tail-to-tail）。

根据上图，（1）很好理解，（2、3）所述的条件独立是什么意思呢？其实2、3点是贝叶斯网络中3个结构的其中两种。为了说清楚这个问题，需要引入D-Separation（D-分离）这个概念。

D-Separation是一种用来判断变量是否条件独立的图形化方法。换而言之，对于一个DAG，D-Separation方法可以快速的判断出两个节点之间是否条件独立。

有：P（a，b，c）=P（a） P（b） P（c|a，b）成立，化简如下：

在c未知的条件下，a、b被阻断（blocked），是独立的，称之为head-to-head条件独立，对应本节图1的x1，x2独立。

考虑c未知和已经两种情况：

1、在c未知的时候，有：P（a，b，c）=P（c）P（a|c）P（b|c），此时，无法得出P（a，b）=P（a）P（b），即c未知时，a、b不独立；

所以，在c给定的条件下，a、b被blocked，式独立的，称之为tail-to-tail条件独立，对应本节图1中“x6，x7在x4给定的条件下独立”。

分c未知和已知两种情况：

1、c未知时，有：P（a，b，c）=P（a）P（c|a）P（b|c），但无法推出P（a，b）=P（a）P（b），即c未知时，a、b不独立；

2、c已知时，有：P（a，b|c）=P（a，b，c）/ P（c），且根据P（a，c）=P（a）P（c|a）=P（c）P（a|c），可化简得到：

所以在给定c的条件下，a、b被blocked，是独立的，称之为head-to-tail条件独立。

head-to-tail其实就是一个链式网络，在xi给定的条件下，xi+1的分布和x1，x2，，xi-1条件独立。这意味着什么？这说明xi+1的分布状态只和xi有关，和其他变量都无关！通俗一点说，当前状态只跟上一状态有关，跟上上次或上上上上上上上次状态都无关！这种顺次演变的随机过程，就叫做马尔科夫链（Markov chain）。有：

将上述节点推广到节点集，则：对于任意的节点集A,B,C，考察所有通过A中任意节点到B中任意节点的路径，若要求A，B条件独立，则需要所有的路径都被blocked，即满足下列两个前提之一：

A和B的“head-to-tail”和“tail-to-tail”路径都通过C；

A和B的“head-to-head”路径不通过C及C的子孙；

最后举例说明上述D-Separation的3种情况（即贝叶斯网络的3种结构形式）：

Factor Graph是概率图的一种，概率图有多重，最常见的就是Bayesian Network和Markov Random Fields（马尔科夫随机场）。

在概率图中，求某个变量的边缘分布是最常见的问题。这个问题有很多种求解方法，其中之一就是可以把Bayesian Network和Markov Random Fields转换成Factor Graph，然后用sum-product算法求解。

以下图为例：

对于上图，在一个人已经呼吸困难（dyspnoea）的情况下，其抽烟（smoking）的概率是多少？

P（smoking | dyspnoea = yes）= ？

继续推算如下：（这里我就不自己码了，好多箭箭头有点麻烦的，还是用原图简单明了）

对上述推导过程作解释如下：

1第二行：对联合概率关于b，x，c求和（在d=1的条件下），从而消去b，x，c，得到s和d=1的联合概率；

2第三行：最开始，所有变量都在sigma（d=1，b，x，c）的后面，但由于P（s）跟“d=1，b，x，c”都没关系，可以提到式子的最前面。而且P（b|s）和x、c没关系，所以也可以把它提出来，放到sigma（b）后，从而式子的右边剩下sigma（x）和sigma（c）。

（ps：这块看能看明白，至于为什么sigma（x）和sigma（c）不能写在一起，我也，哈哈哈~等之后再来补空挡，这里先记着。）

上图中Variable elimination表示的是变量消除的意思。为此引入因子图的概念。

定义异常的晦涩难懂，你光看着名字你就摸不着头脑，所以咱先通俗来讲，所谓因子图就是对函数进行因式分解得到的一种概率图。一般内含两种节点：变量节点和函数节点。众所周知，一个全局函数通过因式分解能够分解为多个局部函数的乘积，这些局部函数和对应的变量关系就体现在因子图上。

举例说明，现有一全局函数，其因式分解方程为：

其中fA、fB、fC、fD、fE为各函数，表示变量之间的关系，可以是条件概率也可以是其他关系（如Markov Random Fields中的势函数）。

其因子图为：

在因子图中，所有的顶点不是变量节点就是函数节点，边线表示他们之间的函数关系。

提及马尔科夫随机场，就再补充一些概念：

我们知道，有向图模型，称之为贝叶斯网络。但有些情况下，强制对某些节点之间的边增加方向是不合适的。使用没有方向的无向边，形成了无向图模型（Undirected Graphical Model,UGM），又被称为马尔科夫随机场或者马尔科夫网络（MRF or Markov Network）。

回归本文主旨，首先我们举例说明如何把贝叶斯网络（和MRF），以及把马尔科夫链、隐马尔科夫模型转换成因子图，以上图为例，根据各个变量对应的关系，可得：

其对应的因子图为（以下两种皆可）：

有上述例子总结出贝叶斯网络构造因子图的方法：

·贝叶斯网络中的一个因子对应因子图中的一个节点

·贝叶斯网络中的每一个变量在因子图上对应边或者半边

·节点g和边x相连当且仅当变量x出现在因子g中

我把绘图的思考过程写下来，你跟着画一遍就会明白：

1找出已存在的先验概率，图中为P（u）和P（w），那么因子对应节点，所以先画出P（u）和P（w）的节点，就是两个框；然后因子P（u）中出现的变量是u，那么由P（u）节点引出一条边，这条边就是u，同理P（w）引出w边；

2发现因子P（x|u，w）知，x是u和w下的条件概率，故做节点P（x|u，w），然后将边u和w与之相连，并有该节点引出x边；

3有因子P（y|x）和P（z|x）发现基于条件x引出两个变量y和z，那么此时需要将X边拆分成两条边（我猜想这个可能就叫半边，没有专门去查），并分别接入到P（y|x）和P（z|x）节点，再由各自节点对应引出y边与z边，结束作图。

对马尔科夫链转换的因子图和隐马尔科夫模型转换而成的因子图，做法相同。这里等以后专门讲马尔科夫的时候再仔仔细细说。这里把图贴出来给大家了解一下（应该可以很快看明白）：

到这，我们算把因子图讲透了，现在看看维基百科上是这样定义因子图的：将一个具有多变量的全局函数因子分解，得到几个局部函数的乘积，以此为基础得到的一个双向图叫做因子图。

怎么样，这样直接看定义，你懂吗？

我们已经学会如何画因子图了，下面来思考这样一个问题：如何由联合概率分布求边缘概率分布？

这里给出公式：

对Xk以外的其他变量的概率求和，最终剩下Xk的概率。这就是该定义的原理。你明白了吗？我有点迷糊反正，可能说成话好理解，但是这个公式未免也太模糊了点（f真的万能）。

其实可以这么理解：

如果有：

那么：

就是说把除了xk以外的所有随机变量的概率求出来，这个f就表示一个多项式，是关于f括号里面x的。然后概率上面有一横，表示的是不发生概率。

好吧，其实这块我也没太明白，先埋个坑，以后回来填。

现在假定我们要计算：

同时，f能被分解成如下因子图（看到这里你大概能明白一点我上面说的f是多项式是什么意思了）：

我们都知道乘法分配律：a b + a c = a (b + c)，等号左边两乘一加，等号右边一加一乘，效率不用多说。现在我们就借助分配律的思想，把因子图给分配咯！

怎么看公因子很简单，例如X3是有f1（x1）和f2（x2）通过f3这个函数得来的（即因子图那节所述，P（x3|x1，x2）），而之后的f5需要x3做因子（条件），所以自然左边这个框就成了公因子。

因为变量的边缘概率等于所有与他相连的函数传递过来的消息的乘积，所以计算得到：

观察上述计算过程，可以发现类似于“消息传递”的观点，且总共有两个步骤：

1对于f的分解图，根据左框（蓝色）、右框（红色）所包围的两个box外面的消息传递：

2根据红蓝框为主的两个box内部的消息传递：

看上图消息传递的方向（箭头），根据

我们可以推导出：

这样就将一个概率分布写成了两个因子的乘积，而这两个因子可以继续分解或者通过已知条件得到。这种利用消息传递的观念计算概率的方法就是sum-product算法。基于因子图可以用该算法高效地求出各个变量的边远分布。

sum-product算法，又称belief propagation，有两种消息：

一种是变量（variable）到函数（function）的消息如下图所示：

此时，

另一种是函数到变量的消息如下图所示：

此时，

如果因子图是无环图，则一定可以准确地求出任意一个变量的边远分布；如果是有环图，则无法用该算法准确求出边远分布。解决方法有3个：

1、删除贝叶斯网络中的若干边，使其不含有无向环

2、重新构造没有环的贝叶斯网络

3、选择loopy belief propagation算法（sum-product的递归版算法），该算法选择环中某个消息，随机赋初值，然后用sum-product算法，迭代下去，因为环的存在所以一定会达到赋值的消息，然后更新该消息，继续迭代，直至没有消息改变为止。缺点是不能确保收敛。

最后，该算法有个类似的max-product算法，弄懂了sum的，max的几乎完全一样。另这两个算法也能够应用到隐马尔科夫模型（hidden Morkov models）上。至于马尔科夫系列，下个专题咱再见~

贝叶斯定理也称贝叶斯推理，早在18世纪，英国学者贝叶斯(1702～1763)曾提出计算条件概率的公式用来解决如下一类问题：假设H[,1],H[,2]…,H[,n]互斥且构成一个完全事件，已知它们的概率P(H[,i]),i=1,2,…,n,现观察到某事件A与H[,1],H[,2]…,H[,n]相伴随机出现，且已知条件概率P(A/H[,i])，求P(H[,i]/A)。

贝叶斯公式（发表于1763年）为： P(H[,i]/A)=P(H[,i])P(A│H[,i])/{P(H[,1])P(A│H[,1]) +P(H[,2])P(A│H[,2])+…+P(H[,n])P(A│H[,n])}

这就是著名的“贝叶斯定理”，一些文献中把P(H[,1])、P(H[,2])称为基础概率，P(A│H[,1])为击中率，P(A│H[,2])为误报率

。

以上就是关于贝叶斯数学全部的内容，包括:贝叶斯数学、贝叶斯定理、为什么朴素贝叶斯称为“朴素”请简述朴素贝叶斯分类的主要思想等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

转载请注明原文地址:https://juke.outofmemory.cn/read/3834986.html

00 生成海报

贝叶斯数学

概率

公式

因子

节点

变量

好吃的卤肘子要怎么做

白鲢和花鲢的区别