可康家园

第十五期可康人

不可忽略的贝叶斯统计学

作者:张雅(天津可康医药技术开发有限公司 数统部 初级统计分析师)

统计学领域中有两大学派:古典统计学(classical)和贝叶斯统计学(Bayesian,以英国数学家托马斯贝叶斯命名)。

古典统计学又称为频率论(frequentist),关于这俩大学派孰优孰劣已有一个世纪的争论。它们的本质区别在于对待未知模型或者参的方法是不同的:

l  古典统计学认为,未知的模型或者参数是确定的,只不过我们不知道它确切的形式或者取值。

l  贝叶斯统计学认为,未知的模型或者参数变量是不确定的,但是这种不确定性可以由一个概率分布来描述。

古典统计学通过进行大量重复实验并统计某个特定结果出现的频率作为对未知参数的估计。以猜桶中白球的比例为例,频率论者会进行大量的带放回的独立抽取实验(实验可以做到天荒地老海枯石烂),然后计算所有结果中白球出现的频率,以此作为对小球中白球比例的推断。古典统计学的核心在于通过大量的实验来消除模型或者参数估计中的不确定性(因为它假设未知模型或者参数是确定的)。

贝叶斯统计学则截然不同。

贝叶斯统计学使用概率的方法来解决统计学问题。如前所述,贝叶斯统计学认为未知的模型或者参数是不确定的、符合某个概率分布。特别的,我们会首先根据主观判断或者过去的经验,对这个概率分布有一个猜测,称为先验分布(prior distribution);然后根据越来越多的观测值(new data 或者 new evidence)来修正对该概率分布的猜测,最后得到的概率分布称为后验分布(posterior distribution)。贝叶斯统计学中的概率的概念可以被解释为我们对未知变量不同取值的信心程度的测度(measure of confidence)。贝叶斯统计不消除未知变量的不确定性,而是通过越来越多的新的观测点来持续更新我们对于该未知变量不确定性的认知,提高我们对不确定性的判断的信心。

贝叶斯统计学派被古典统计学派诟病的核心问题是对于未知变量的先验分布是非常主观的。显然,哪怕是一个最简单的问题,不同的人也会有不同的考虑。不过,尽管不同人可以有不同的先验分布,但是随着他们结合新的观测点来更新自己的信仰,我们会发现他们最终得到的后验分布是会逐渐收敛的。此外,对很多生活中的实际问题,使用一个合理的猜测(educated guess)作为先验是很有好处的。那为什么要学习贝叶斯统计呢?

贝叶斯统计在生活以及量化投资中有着广泛的应用。从下面两个意义上说,相对古典统计,贝叶斯统计有明显的优势:

1.虽然在抽小球的例子中我们可以进行大量重复性的实验并计算白球的频率(古典统计学手段),但对于是在生活中的很多实际问题,大量重复实验是不现实的。比如我们想推断川普当选美国总统的概率。显然,我们没法让美国人进行成千上万次不同的投票选举,然后计算川普获胜的频率。即便是通过民意调查的方式,进行成千上万次也是不切实际的(简单从成本的角度考虑就不可能)。因此,对于这个问题我们只能有非常有限的几次民意调查结果。我们当然可以只通过这些有限的结果利用古典统计学对川普获胜的概率做出估计,但是可以想象的是这个估计的误差会非常大。而贝叶斯统计则提供了新的视角。

2.合理的先验分布对未知量的估计是非常有益的。对生活中很多实际问题的判断都和人们的学识、经验、见识有关。在这种情况下,如果我们把有限和观测数据和根据知识和经验得到的先验结合起来,会得到对未知量更好的推断。在资产配置领域,高盛著名的 BlackLitterman 收益率模型(Black-Litterman 模型 —— 贝叶斯框架下的资产配置利器)就是将从市场均衡假设推出的资产收益率作为先验,将基金经理的主观判断作为观测值,通过把它们两者结合来得到后验判断。它的本质也是贝叶斯统计。

可见,掌握贝叶斯统计并且使用它做推断,即贝叶斯推断(Bayesian inference),十分重要。