深度學習中各種熵、資訊量一覽
各種熵的計算公式及基本思想
1. 資訊量
如果一個事件的概率很低,那麼其資訊量很大:
2. 資訊熵
對於一個離散性隨機變數X的熵H(X),資訊熵就是資訊量的數學期望, (熵越小越純凈,說明術語同一個類(決策樹中), 熵越大,資訊量越大,不確定性越高), 定義為:
3. 聯合熵
對於服從聯合概率分布p(x, y)的兩個變數x, y,,那麼聯合熵:
4. 條件熵
在X給定的條件下,Y的條件概率分布的熵對X 的數學期望(度量在定情況下,隨機變數的不確定性):
= -1 * \sum_{x\in X} p(x) \sum_{y\in Y} p(y|x) * log (p(y|x)) \\
= -1 * \sum_{x\in X} \sum_{y\in Y} p(y, x) * log (p(y|x))
5. 互資訊(好像和資訊增益一樣)
兩個隨機變數X和Y,他們的聯合概率密度函數為p(x,y),其邊際概率密度函數分別為p(x)和p(y)。互資訊I(X;Y)為聯合分布p(x,y)和p(x)p(y)之間的相對熵
互資訊其實就是資訊熵與條件熵之差(也就是知道其中一個,另一個不確定度減少的程度):
6. 相對熵
相對熵也叫做KL散度,表示對於同一個隨機變數有兩個概率分布P(X) 和Q(X), 衡量這兩個分布的相似程度.
7. 交叉熵
主要用於度量兩個概率分布間的差異性資訊, 在分類任務中常用做目標函數(loss function),這裡是不是有點疑惑,為什麼KL散度用來衡量兩個分布的相似程度,交叉熵也用來衡量,請往後看,交叉熵的公式為:
= -1 * \sum_{i=1}^{n} p(x_i) * log(q(x_i))
一般p為label,即真實標籤ground truth, q為預測分布.
交叉熵與KL散度(相對熵的關係)
= \sum_{i=1}^{n} p(x_i) * log(p(x_i))-1 * \sum_{i=1}^{n} p(x_i) * log(q(x_i))\\
= H(X) – H(p,q)
KL散度就是隨機變數X的資訊熵減去交叉熵, 由於H(X)為常量,因此交叉熵與KL散度一樣都是用來評估predict與label之間的差別.(一般採用交叉熵)