统计学习方法-第 1 章统计学习及监督学习概论

2021 年 8 月 13 日
笔记

统计学习方法
- 第 1 章统计学习及监督学习概论
  - 附加知识
    - 各种空间介绍
    - 维度诅咒
  - 参考文献
- 第 2 章感知机

统计学习方法

第一版

第二版

第 1 章统计学习及监督学习概论

统计学习的主要特点是：

统计学习以计算机及网络为平台，是建立在计算机及网络之上的；
统计学习以数据为研究对象，是数据驱动的学科；
统计学习的目的是对数据进行预测与分析；
统计学习以方法为中心，统计学习方法构建模型并应用模型进行预测与分析；
统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科，并且在发展中逐步形成独自的理论体系与方法论。

假设空间(hypothesis space)：
$H = {f (x; θ) ∣ θ \in R^{D}} or F = {P ∣ P (Y ∣ X; θ), θ \in R^{D}}$
其中 $f (x; θ)$ 是参数为

\theta

$θ$ 的函数（决策函数），也称为模型（Model），参数向量

\theta

$θ$ 取值与

D

$D$ 维欧式空间

\mathbb{R}^D

$R^{D}$ ,也称为参数空间(parameter space)，

D

$D$ 为参数的数量(维度)

模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数

特征空间（feature space）：
每个具体的输入是一个实例（instance），通常由特征向量（feature vector）表示。这
时，所有特征向量存在的空间称为特征空间（feature space）。特征空间的每一维对应于
一个特征。

输入空间中的一个输入向量
$x = (x_1,x_2)$
$x = (x_{1}, x_{2})$ ，在多项式模型中特征向量是(
$x_1^2,x_1x_2,x_2^2,…$
$x_{1}^{2}, x_{1} x_{2}, x_{2}^{2}, \dots$ )
一般说的线性模型，指的是特征向量的线性组合，而不是指输入向量，所以说模型都是定义在特征空间上的

统计学习的三要素：

模型的假设空间(hypothesis space)，简称：模型(model)
模型选择的准则(evaluation criterion)，简称：策略(strategy)或者学习准则
模型学习的算法(algorithm)，简称：算法(algorithm)

以线性回归（Linear Regression）为例：
模型：
$f(x;w,b) = w^Tx +b$
$f (x; w, b) = w^{T} x + b$
策略(strategy)或者学习准则: 平方损失函数
$\mathcal L(y,\hat{y}) = (y-f(x,\theta))^2$
$L (y, \overset{y}{^}) = (y - f (x, θ))^{2}$
算法：解析解analytical solution(闭式解closed-form solution)和数值解numerical solution，如：closed-form的最小二乘的解以及梯度下降法

机器学习的定义：

未知的目标函数(理想中完美的函数)：𝑓: 𝒙⟶𝑦

训练样本D:{(𝒙¹,𝑦¹),…,(𝒙ⁿ,𝑦ⁿ)}

算法

假设空间

模型 g≈f

使用训练数据来计算接近目标 𝑓 的假设（hypothesis ）g （来自：Machine Learning Foundations（机器学习基石）,25 页）

监督学习：
监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。本质是学习输入到输出的映射的统计规律。

输入变量与输出变量均为连续变量的预测问题称为回归问题；
输出变量为有限个离散变量的预测问题称为分类问题；
输入变量与输出变量均为变量序列的预测问题称为标注问题(可以理解为特殊的分类问题)。

监督学习的模型可以是概率模型或非概率模型，由条件概率分布

P(Y|X)

$P (Y ∣ X)$ 或决策函数（decision function）

Y=f(X)

$Y = f (X)$ 表示，随具体学习方法而定。对具体的输入进行相应的输出预测时，写作

P(y|x)

$P (y ∣ x)$ 或

Y=f(x)

$Y = f (x)$ 。
$y = y arg max P (y ∣ x)$

联合概率分布：
监督学习假设输入与输出的随机变量 X 和 Y 遵循联合概率分布

P(X,Y)

$P (X, Y)$ 。

P(X,Y)

$P (X, Y)$ 表示分布函数，或分布密度函数。注意，在学习过程中，假定这一联合概率分布存在，但对学习系统来说，联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布

$P(X,Y)$

$P (X, Y)$ 独立同分布产生的。
统计学习假设数据存在一定的统计规律，

X

$X$ 和

Y

$Y$ 具有联合概率分布的假设就是监督学习关于数据的基本假设。

非监督学习：
非监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构。

非监督学习的模型可以表示为函数

z = g(x)

$z = g (x)$ 或者条件概率分布

P(z|x)

$P (z ∣ x)$ （输出

z

$z$ 可以是聚类或者降维）
$z = z arg max P (z ∣ x)$
以及条件概率分布

P(x|z)

$P (x ∣ z)$ （用来做概率密度估计，比如 GMM 中

P(x|z)

$P (x ∣ z)$ 属于高斯分布，如果假设知道数据来自哪个高斯分布，即知道

z

$z$ ，我们可以用极大似然估计来估计相关参数）。

概率模型（probabilistic model）与非概率模型（non-probabilistic model）或者确定性模型（deterministic model）：

概率模型（probabilistic model）- 条件概率分布 P(y|x)和非概率模型（non-probabilistic model） – 函数 y=f(x)可以相互转化，条件概率分布最大化后得到函数，函数归一化后得到条件概率分布。所以概率模型与非概率模型的区别不在于输入输出之间的映射关系，而在于模型的内部结构：概率模型一定可以表示为联合概率分布的形式，而非概率模型则不一定存在这样的联合概率分布。

概率模型的代表是概率图模型（probabilistic graphical model）

^{参考文献[3]}

$^{参考文献 [3]}$ ，联合概率分布可以根据图的结构分解为因子乘积的形式，可以用最基本的加法规则和乘法规则进行概率推理：
$P (x) = y \sum P (x, y) P (x, y) = P (x) P (y ∣ x)$

参数化模型（parametric model）和非参数化模型（non-parametric model）：

参数化模型假设模型参数的维度固定，模型可以由有限维参数完全刻画。(如：感知机、GMM)
非参数化模型假设模型参数的唯独不固定或者说无穷大，随着训练数据量的增加而不断增大。(如：决策树、支持向量机)

在线学习（online learning）和批量学习（batch learning）：

在线学习每次接受一个样本，预测后学习模型，并不断重复该操作。
批量学习一次接受所有数据，学习模型之后进行预测。

在线学习比批量学习更难，因为每次模型更新中可利用的数据有限。

贝叶斯学习（Bayesian learning）/ 贝叶斯推理（Bayesian inference）：
$Bayes Rule : posterior P (X ∣ Y) = \frac{P ( Y ∣ X ) likelihood P ( X ) prior}{evidence P ( Y )} = \frac{P ( Y ∣ X ) likelihood P ( X ) prior}{evidence x \sum P ( Y ∣ X ) P ( X )}$

核技巧（kernel trick）/ 核方法（kernel method）：

核方法是一类把低维空间的非线性可分问题，转化为高维空间的线性可分问题的方法。
核技巧是一种利用核函数直接计算

\lang \phi(x),\phi(z) \rang

$⟨ ϕ (x), ϕ (z)⟩$ ，以避开分别计算

\phi(x)

$ϕ (x)$ 和

\phi(z)

$ϕ (z)$ ，从而加速核方法计算的技巧。

核函数：设

\mathcal X

$X$ 是输入空间（即

x_i \in \mathcal X

$x_{i} \in X$ ，

\mathcal X

$X$ 是

\mathbb R^n

$R^{n}$ 的子集或离散集合），又设

\mathcal H

$H$ 为特征空间（希尔伯特空间

^{附加知识:各种空间介绍}

$^{附加知识 : 各种空间介绍}$ ），如果存在一个从

\mathcal X

$X$ 到

\mathcal H

$H$ 的映射

$ϕ (x) : X \to H$

使得对所有

x,z \in \mathcal X

$x, z \in X$ ，函数

K(x,z)

$K (x, z)$ 满足条件

$K (x, z) = ϕ (x) . ϕ (z) = ⟨ ϕ (x), ϕ (z)⟩$

则称

K(x,z)

$K (x, z)$ 为核函数。其中

\phi(x)

$ϕ (x)$ 为映射函数，

\lang \phi(x),\phi(z) \rang

$⟨ ϕ (x), ϕ (z)⟩$ 为内积。

核技巧的想法是，在学习和预测中只定义核函数

K(x,z)

$K (x, z)$ ，而不显式地定义映射函数

\phi

$ϕ$ 。通常直接计算

K(x,z)

$K (x, z)$ 比较容易，而通过

\phi(x)

$ϕ (x)$ 和

\phi(z)

$ϕ (z)$ 计算

K(x,z)

$K (x, z)$ 并不容易。

注意：
$\phi$
$ϕ$ 是输入空间
$\mathbb{R}^n$
$R^{n}$ 到特征空间
$\mathcal H$
$H$ 的映射，特征空间
$\mathcal H$
$H$ 一般是高维的，甚至是无穷维的。所以
$\phi$
$ϕ$ 不好计算，甚至会带来维度灾难又称维度诅咒（Curse of Dimensionality）
$^{附加知识:维度诅咒}$
$^{附加知识 : 维度诅咒}$ 。

附加知识

各种空间介绍

线性空间就是定义了加法和数乘的空间(空间里的一个元素就可以由其他元素线性表示)。

度量空间就是定义了距离的空间（曼哈顿距离，欧氏距离，闵可夫斯基距离，马氏距离，切比雪夫距离）。
定义距离时，有三条公理必须遵守：

非负性、同一性： $dist(x_i,x_j) \geq 0$
对称性： $dist(x_i,x_j) = dist(x_j,x_i)$
三角不等式(也叫直递性)： $dist(x_i,x_j) \leq dist(x_i,x_k) + dist(x_k,x_j)$

文字解释：【两点之间距离不为负；两个点只有在空间上重合才可能距离为零；a 到 b 的距离等于 b 到 a 的距离;a 到 c 的距离加上 c 到 b 的距离大于等于 a 直接到 b 的距离;】

赋范空间就是定义了范数的空间。
x的范数||x||就是x的长度。那么这里的长度和上一节中说的距离到底有什么区别呢。距离的概念是针对两个元素来说的，例如d(x,y)指的是x与y两个元素之间的距离，而范数是针对一个元素来说的，每一个元素都对应一个范数，可以将范数理解为一个元素到零点的距离（这只是一种理解，并不是定义），也就是它自己的长度。
定义：
称映射

||.|| : \mathbb{R}^n \to \mathbb{R}

$∣∣.∣∣ : R^{n} \to R$ 为

\mathbb{R}^n

$R^{n}$ 上的范数，当且仅当：

非负性： $\forall x \in \mathbb{R}^n ,||x|| \geq 0$
数乘： $\forall x \in \mathbb{R}^n ,a \in \mathbb{R}^n, ||ax|| = |a|.||x||$
三角不等式: $\forall x,y \in \mathbb{R}^n ,||x+y|| \leq ||x|| + ||y||$

如果我们定义了范数，可以在这基础上定义距离：dist(x,y)=||x-y||。根据范数的三条性质，我们可以证明我们这样定义的距离也满足距离的定义，聪明的你可以自己证明一下（对称性的证明，提一个-1出来，一加绝对值就是1了）。

也就是说范数其实是一个更加具体的概念，有了范数一定能利用范数定义距离，但是有距离不能定义范数。

也许你会问，你不是说理解范数就是一个元素到零点的距离吗，那定义范数为||x||=dist(x,0) 不就行了吗。这样的话，对于范数的第二条性质就不一定会满足，||ax||=dist(ax,0)，而dist(ax,0)不一定等于|a|dist(x,0)，具体等不等于还要看你的距离是怎么定义的。

了解到这里那么你会发现：
欧式距离对应L2范数
曼哈顿距离对应L1范数

线性赋范空间就是定义了加法、数乘和范数的空间。

巴拿赫空间就是完备的赋范线性空间。(Banach space)
完备的空间的定义：如果一个空间是完备的，那么该空间中的任何一个柯西序列都收敛在该空间之内。

首先来说一下柯西序列是什么，柯西序列就是随着序数增加，值之间的距离越来越小的序列。换一种说法是，柯西序列可以在去掉有限个值之后，使任意两个值之间的

\underline{\mathrm{距离}}

$\underline{距离}$ 都小于任意给定正常数（其实这就是定义了一个极限而已）。

那么任意一个柯西序列都收敛在该空间内是什么意思呢，举个例子你就明白了。

设定义在有理数空间Q上的序列：

x_n = \frac{[\sqrt{2}n]}{n}

$x_{n} = \frac{[ 2 n ]}{n}$ ，其中[x]表示x取整数部分。
对于这个数列来说，每一个元素的分子分母都是整数，所以每一个

x_n

$x_{n}$ 都在有理数空间Q上，那这个序列的极限呢，稍有常识的人都能看出，这个序列的极限是

\sqrt{2}

$2$ ，而这并不是一个有理数，所以这个柯西序列的极限不在该空间里面，也就是说有理数空间Q是不完备的。

所以完备的意义我们可以这样理解，那就是在一个空间上我们定义了极限，但是不论你怎么取极限，它的极限的值都不会跑出这个空间，那么这个空间就是完备空间。

另外，不知道你有没有发现，上面在解释什么是柯西序列的时候，有一个词我加了下划线，那就是距离，也就说说在定义完备空间之前，要先有距离的概念。所以完备空间，其实也是完备度量空间。

所以，巴拿赫空间满足几条特性呢：距离、范数、完备。

内积空间就是定义了内积的空间。Inner product space
有时也称准希尔伯特空间。
内积就是我们所说的点乘、标积，它的定义方式也不是唯一的，但如同距离范数的定义一样，内积的定义也要满足某些条件，不能随便定义。

定义映射

\lang .,. \rang : V \times V \to \mathbb{F}

$⟨ ., . ⟩ : V \times V \to F$ , 其中

V

$V$ 是向量，

\mathbb{F}

$F$ 是标量
有

x,y,z \in V ,s \in \mathbb{F}

$x, y, z \in V, s \in F$ ，那么内积满足

第一个参数中的线性:
$⟨ s x, y ⟩ = s ⟨ x, y ⟩ ⟨ x + y, z ⟩ = ⟨ x, z ⟩ + ⟨ y, z ⟩ ⟨ 0, x ⟩ = 0$
共轭对称:
$\lang x,y \rang = \overline{\lang y,x \rang }$
$⟨ x, y ⟩ = \overline{⟨ y, x ⟩}$
正定性:
$\lang x,x \rang > 0 \quad\mathrm{if}\; x \neq 0$
$⟨ x, x ⟩ > 0 if x \neq = 0$
正半定性或非负定性:
$\forall{x}, \lang x,x \rang \geq 0$
$\forall x, ⟨ x, x ⟩ \geq 0$
确定性：
$\lang x,x \rang = 0 必然有 x=0$
$⟨ x, x ⟩ = 0 必然有 x = 0$

3，4，5可以跟上面定义范数和距离一样写成一个

例子-欧几里得向量空间:

x,y \in \mathbb{R}^n , \lang x,y \rang = x^Ty=\sum_{i=1}^n{x_iy_i}

$x, y \in R^{n}, ⟨ x, y ⟩ = x^{T} y = \sum_{i = 1}^{n} x_{i} y_{i}$

只有定义了内积，才会有夹角的概念，才会有正交的概念，另外内积也可以定义范数，也就是说内积是比范数更具体的一个概念。

欧式空间就是定义了内积的有限维实线性空间。

希尔伯特空间就是完备的内积空间。(Hilbert space)
希尔伯特空间中的元素一般是函数，因为一个函数可以视为一个无穷维的向量。

Linear Space

Normed Linear Space

Banach Space

Inner Product Space

Hilbert Space

Euclid Space

参考：一片文章带你理解再生核希尔伯特空间（RKHS）以及各种空间

维度诅咒

维度诅咒通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。高维度有更大的特征空间，需要更多的数据才可以进行较准确的估计。

若特征是二值的，则每增加一个特征，所需数据量都在以2的指数级进行增长，更何况很多特征不只是二值的。

几何角度1：

上图表示一个多维空间（以二维为例），设正方形边长为1，则其内切圆半径为

r=0.5

$r = 0.5$ ，则正方形面积为1，内切圆面积为

\pi(0.5)^2

$π (0.5)^{2}$ 。若将此变为三维情况下，正方体体积为1，内切球体积为

\frac{4}{3}\pi(0.5)^3

$\frac{4}{3} π (0.5)^{3}$ 。

因此球体的体积可以表示为

V(d) = \frac{\pi^{d/2}}{\varGamma(\frac{d}{2}+1)}0.5^d = k(0.5)^d

$V (d) = \frac{π ^{d /2}}{Γ ( \frac{d}{2} + 1 )} 0. 5^{d} = k (0.5)^{d}$ (d为维度),则

\lim_{d \to \infty}k(0.5)^d = 0

$lim_{d \to \infty} k (0.5)^{d} = 0$ ，其内切超球体的体积为0。由此可知，高维情况下，数据大都分布在四角（正方形内，内切圆外），稀疏性太大，不好分类。

维度越大，超球体体积越小。说明落在超球体内的样本越少，因为超球体是超立方体的内切球。不在球内,那只能在角落！

几何角度2：

上图也表示一个多维空间（以二维为例），则其中图形的体积有如下关系：外圆半径

r=1

$r = 1$ ，内圆半径为

r−\varepsilon

$r - ε$ 。同样在高维情况下，外圆体积为

V_{外圆} = k.1^d = k

$V_{外圆} = k . 1^{d} = k$ ，中间的圆环体积为

V_{圆环} = k – k(1-\varepsilon)^d

$V_{圆环} = k - k (1 - ε)^{d}$ ，则：
$d \to \infty lim \frac{V _{圆环}}{V _{外圆}} = d \to \infty lim \frac{k - k ( 1 - ε ) ^{d}}{k} = d \to \infty lim (1 - (1 - ε)^{d}) = 1$

高维情况下，无论
$\varepsilon$
$ε$ 多小，只要d足够大，圆环几乎占据了整个外圆，内圆体积趋向于0，导致数据稀疏。

参考：
The Curse of Dimensionality in classification
机器学习-白板推导系列(五)-降维（Dimensionality Reduction）

参考文献

[1] Hastie T,Tibshirani R,Friedman J. The Elements of Statistical Learning: DataMining,Inference,and Prediction. Springer. 2001（中译本：统计学习基础——数据挖掘、推理与预测。范明，柴玉梅，昝红英等译。北京：电子工业出版社，2004）

[2] Bishop M. Pattern Recognition and Machine Learning. Springer,2006

[3] Probabilistic Graphical Models: Principles and Techniques by Daphne Koller, Nir Friedman from The MIT Press

[4] Deep Learning (Ian Goodfellow, Yoshua Bengio, Aaron Courville)

[5] Tom M Michelle. Machine Learning. McGraw-Hill Companies,Inc. 1997（中译本：机器学习。北京：机械工业出版社，2003）

[6] Bayesian Reasoning and Machine Learning by David Barber 2007–2020 ,other version

[7] Reinforcement Learning:An Introduction (second edition 2020) by Richard S. Sutton and Andrew G. Barto ,other version

[8] 周志华，机器学习，清华大学出版社 (手推笔记以及公式推导解析)

[9] Lecture Notes in MACHINE LEARNING Dr V N Krishnachandran