交叉熵与对数似然分析

2022 年 8 月 13 日
笔记
深度学习

信息论(Information Theory)

“信息”是指一组消息的集合。
假设在一个噪声通道上发送消息，我们需要考虑如何对每一个信息进行编码、传输以及解码，使得接收者可以尽可能准确地重构出消息。
信息论将信息的传递看作一种统计现象。
- 信息传输
- 信息压缩

熵(Entropy)

在信息论中，熵用来衡量一个随机事件的不确定性。

熵越高，则随机变量的信息越多；
熵越低，则随机变量的信息越少.

applicatio_确定性非常高，p(x=n)=1

appl_那么有apple或apply两种可能,假设

\[\begin{align}
P\left(x=e\right)=0.7
\\
P\left(x=y\right)=0.3
\end{align}
\]

自信息(Self Information):一个随机事件所包含的信息量

对于一个随机变量X,当X=x时的自信息I(x)定义为

\[I\left ( x\right ) =-\log_{}{p\left(x\right)}
\]

这样定义，让它满足可加性

\[\begin{align}
I\left ( x,x’\right ) & = -\left[ \log_{}{p\left(x\right)}+ \log_{}{p\left(x’\right)}\right ]\\
&=-\log_{}{\left ( p\left (x \right )\cdot p\left ( x’ \right ) \right ) }

\end{align}
\]

熵：随机变量X的自信息的数学期望

\[\begin{align}
H(x) & = \mathbb{E}_{x} [I(x)]
\\&=\mathbb{E}_{x}[-\log{}{p(x)}]
\\&=-\sum_{x\in \chi }^{} p(x)\log{}{p(x)}
\end{align}
\]

熵编码（Entropy Encoding)

在对分布p(y)的符号进行编码时，熵H(p)也是理论上最优的平均编码长度，这种编码方式称为熵编码。

什么样的编码是最优编码呢？最常出现的字符编码越短，出现频率越小的字符编码越长。

交叉熵(Cross Entropy)

交叉熵是按照概率分布q的最优编码对真实分布为p的信息进行编码的长度。

\[\begin{aligned}
H(p, q) &=\mathbb{E}_{p}[-\log q(x)] \\
&=-\sum_{x} p(x) \log q(x)
\end{aligned}
\]

在给定q的情况下，如果p和q越接近，交叉熵越小；
如果p和q越远，交叉嫡就越大。

KL散度(Kullback-Leibler Divergence)

KL散度是用概率分布q来近似p时所造成的信息损失量。
KL散度是按照概率分布q的最优编码对真实分布为p的信息进行编码，其平均编码长度（即交叉熵）H(pq)和p的最优平均编码长度(即熵)H(p)之间的差异。

\[\begin{aligned}
\mathrm{KL}(p, q) &=H(p, q)-H(p) \\
&=\sum_{x} p(x) \log \frac{p(x)}{q(x)}
\end{aligned}
\]

应用到机器学习

以分类为例

真实分布

\[P_{r}(y|x)
\]

预测分布

\[P_{θ}(y|x)
\]

假设y*为x的真实标签

\[\begin{align}
& P_{r}(y*|x) = 1 \\
& P_{r}(y|x) = 0, \forall y\ne y*
\end{align}
\]

真实分布相当于onehot向量

\[\begin{align}
\begin{bmatrix}
0\\
0\\
0\\
1\\
0
\end{bmatrix}_{c}=P_{r}(y|x)
\end{align}
\]

如何衡量两个分布的差异？

课程视频链接：3.3交叉熵与对数似然

原创作者：孤飞-博客园
原文链接：//www.cnblogs.com/ranxi169/p/16583838.html

Tags: 深度学习