高斯分布|机器学习推导系列(二)
一、概述
假设有以下数据:
二、通过极大似然估计高斯分布的均值和方差
1. 极大似然
2. 高斯分布
3. 一维高斯分布下的估计
-
关于
的似然函数
-
通过极大似然估计法求解
-
证明
是无偏估计
-
通过极大似然估计法求解
-
证明
是有偏估计
要证明是有偏估计就需要判断
,证明如下:
可以理解为当取
就已经确定了所有
的和等于
,也就是说当
个
确定以后,第
个
也就被确定了,所以少了一个“自由度”,因此
。
方差的无偏估计:
三、为什么高斯分布的等高线是个“椭圆”
1. 高斯分布与马氏距离
-
多维高斯分布
-
马氏距离
2. 证明高斯分布等高线为椭圆
-
协方差矩阵的特征值分解
任意的实对称矩阵都有
个线性无关的特征向量。并且这些特征向量都可以正交单位化而得到一组正交且模为 1 的向量。故实对称矩阵
可被分解成
。
-
将概率密度整理成椭圆方程的形式
上式中可以理解为将
减去均值进行中心化以后再投影到
方向上,相当于做了一次坐标轴变换。
当的维度为2即
时
,得到类似椭圆方程的等式,所以也就可以解释为什么其等高线是椭圆形状。二维高斯分布的图像如下所示:
四、高斯分布的局限性
1. 参数过多
协方差矩阵中的参数共有
个(
是对称矩阵),因此当
的维度
很大时,高斯分布的参数就会有很多,其计算复杂度为
。
可以通过假设高斯分布的协方差矩阵为对角矩阵来减少参数,当高斯分布的协方差矩阵为对角矩阵时,特征向量的方向就会和原坐标轴的方向平行,因此高斯分布的等高线(同心椭圆)就不会倾斜。
另外如果在高斯分布的协方差矩阵为对角矩阵为对角矩阵的基础上使得其特征值全部相等(即),则高斯分布的等高线就会成为一个圆形,而且不会倾斜,称为各向同性。
2. 单个高斯分布拟合能力有限
解决方案是使用多个高斯分布,比如高斯混合模型。
五、求高斯分布的边缘概率与条件概率
1. 概述
首先将变量、均值和方差进行划分:
本部分旨在根据上述已知来求。
2. 定理
以下定义为推导过程中主要用到的定理,这里只展示定理的内容,不进行证明:
一个简单但不严谨的证明:
3. 求边缘概率
所以,同理
。
4. 求条件概率
现在可以得到。根据
与
的关系可以得到
的分布:
因此可以得到,同理可以得到
。
六、求高斯分布的联合概率分布
1. 概述
本部分旨在根据上述已知来求。
2. 求解
由上述已知可以确定与
的关系为线性高斯模型,则
与
符合下述关系:
然后求解的均值和方差:
3. 求解
求解需要首先求解
与
的联合分布,然后根据上一部分的公式直接得到
。