【专栏】数学之美番外篇:平凡而又神奇的贝叶斯方法(5)

所谓的推理,分为两个过程,第一步是对观测数据建立一个模型。第二步则是使用这个模型来推测未知现象发生的概率。

最小描述长度原则

贝叶斯模型比较理论与信息论有一个有趣的关联:

P(h | D) ∝ P(h) * P(D | h)

两边求对数,将右式的乘积变成相加:

ln P(h | D) ∝ ln P(h) + ln P(D | h)

显然,最大化P(h | D) 也就是最大化 ln P(h | D)。而ln P(h) + ln P(D | h)则可以解释为模型(或者称“假设”、“猜测”)h的编码长度加上在该模型下数据D的编码长度。使这个和最小的模型就是最佳模型。

而究竟如何定义一个模型的编码长度,以及数据在模型下的编码长度则是一个问题。(更多可参考Mitchell的《Machine Learning》[1]的6.6节,或Mackay的28.3节)

作者:刘未鹏 出版:电子工业出版社 

最优贝叶斯推理

所谓的推理,分为两个过程,第一步是对观测数据建立一个模型。第二步则是使用这个模型来推测未知现象发生的概率。我们前面都是讲的对于观测数据给出最靠谱的那个模型。然而很多时候,虽然某个模型是所有模型里面最靠谱的,但是别的模型也并不是一点机会都没有。譬如第一个模型在观测数据下的概率是0.5。第二个模型是0.4,第三个是0.1。如果我们只想知道对于观测数据哪个模型最可能,那么只要取第一个就行了,故事到此结束。然而很多时候我们建立模型是为了推测未知的事情的发生概率,这个时候,三个模型对未知的事情发生的概率都会有自己的预测,仅仅因为某一个模型概率稍大一点就只听他一个人的就太不民主了。所谓的最优贝叶斯推理就是将三个模型对于未知数据的预测结论加权平均起来(权值就是模型相应的概率)。显然,这个推理是理论上的制高点,无法再优了,因为它已经把所有可能性都考虑进去了。

只不过实际上我们是基本不会使用这个框架的,因为计算模型可能非常费时间,二来模型空间可能是连续的,即有无穷多个模型(这个时候需要计算模型的概率分布)。结果还是非常费时间。所以这个被看作是一个理论基准。

注释:

[1]中译名《机器学习》。

(待续;此文的修订版已收录《暗时间》一书,由电子工业出版社2011年8月出版。作者于2009年7月获得南京大学计算机系硕士学位,现在微软亚洲研究院创新工程中心从事软件研发工程师工作。)

网络编辑:谢小跳

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}