概率与信息论
概率论:使我们能够提出不确定的声明以及在不确定性存在的情况下进行推理。
信息论:能够量化概率分布中的不确定性总量。
概率
频率派概率(Frequentist probability):概率直接与事件发生的频率相联系的。
贝叶斯概率(Bayesian probability):涉及确定性水平的。
随机变量(random variable)
可以随机地取不同值的变量;一个随机变量只是对可能的状态的描述,它必须伴随着一个概率分布来指定每个状态的可能性。随机变量可以是离散的或者连续的。离散的随机变量拥有有限或者无限多的状态。
概率分布
用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。描述概率分布的方式取决于随机变量是离散的还是连续的。
离散型变量概率分布 | 概率质量函数(probability mass function,PMF) 用大写字母P表示. 随机变量x,遵循分布x~P(x). 联合概率密度分布(Joint probability distribution): PMF可以同时作用于多个随机变量,P(x= ,y= )= P(), 表示x= ,y= 同时发生的概率 |
连续型变量概率分布 | 概率密度函数(probability density function,PDF) 用小写字母p表示. p(x)并没有直接对特定的状态给出概率,相对的,它给出了落在面积为 的无限小的区域内的概率为 . |
边缘概率
在已知一组变量的联合概率密度分布情况下,想要了解其中一个子集的概率分布,这种定义在子集上的概率分布被称为边缘概率分布(marginal probability distribution)。
假设有离散型随机变量x和y,并且我们知道
。可以依据求和法(sum rule)来计算
:
对于连续型变量,我们需要用积分替代求和:
条件概率
某个事件在给定其他事件发生时出现的概率。给定
发生的条件概率记为
。可以通过以下公式计算:
链式法则chain rule(乘法法则 product rule):任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式。
独立性和条件独立性
两个随机变量x和y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含x,另一个只含因子y,我们就称这两个随机变量是相互独立的。如果关于x和y的条件概率分布对于z的每一个值都可以写成乘积形式。那么这两个随机变量x和y在随机变量z时是条件独立的(conditionally independent)。
期望
函数f(x)关于某分布P(x)的期望或者期望值是指,当x由P产生,f作用于x时,f(x)的平均值。
方差
衡量的是当我们对x依据它的概率分布进行采样时,随机变量x的函数值会呈现多大的差异。当方差很小时,f(x)的值形成簇比较接近它们的期望值。方差的平方根被称为标准差。
协方差
在某种意义上给出了 两个变量线性相关性的强度以及这些变量的尺度。
协方差的绝对值如果很大,则意味着变量值变化很大,并且它们同时距离各自的均值很远。
如果协方差是正的,则两个变量都倾向于同时取得相对较大的值。
如果协方差是负的,那么其中一个变量倾向于取得相对较大的值同时,另一个变量倾向于取得相对较小的值,反之亦然。
其他的衡量指标如相关系数(correlation)将每个变量贡献归一化,为了只衡量变量的相关性而不受各变量尺度大小的影响。
协方差和相关性是有联系的,但实际上是有不同的概念。它们是有联系的:如果两个变量相互独立 ,那么它们的协方差为零。