資訊理論和數理統計——機器學習基礎
- 2020 年 3 月 26 日
- 筆記
一、資訊理論
資訊理論處理的是客觀世界中的不確定性。
通訊的基本問題是在一點精確地或近似地復現在另一點所選取的消息。在生活中,資訊的載體是消息。
不同的消息帶來的資訊在直觀感覺上不是完全相同的,比如「馬雲獲得奧賽健美冠軍」比「施瓦辛格獲得奧賽健美冠軍」的資訊要大得多。
因為前者是小概率事件,而後者我們已經習以為常。不確定性越大的消息提供的資訊量越大。
熵
一個系統內在的混亂程度
信源
產生消息(符號)、消息序列和連續消息的來源。
資訊量
資訊多少的量度
在資訊理論中,如果事件A發生的概率為(p(A)),則這個事件的自資訊量定義為
(h(A)=−log_2p(A))
比如:當(p(A))為1/1000得出資訊量約為10,當(p(A))為1/2得出的資訊量約為1
資訊熵
資訊熵是信源可能發出的各個符號的自資訊量在信源構成的概率空間上的統計平均值。
根據單個事件的自資訊量可以計算包含各個符號的信源的資訊熵
如果一個離散信源X包含n個符號,每個符號(a_i)的取值為(p(a_i)),則X的信源熵為
(H(X)=− sum_{i=1}^np(a_i)log_2p(a_i))
條件熵
在概率論中有條件概率的概念,將條件概率擴展到資訊理論中,就可以得到條件熵。
如果兩個信源之間具有相關性,那麼在已知其中一個信源X的條件下,另一個信源熵就會減小。
條件熵(H(Y∣X))表示的是在已知隨機變數(X)的條件下,另一個隨機變數(Y)的不確定性,也就是在給定(X)時,根據(Y)的條件概率計算出的熵再對(X)求數學期望
$ H(Y|X)=sum_{i=1}^np(x_i)H(Y|X=x_i) $
(=-sum_{i=1}^np(x_i)sum_{j=1}^mp(y_i|x_i)log_2p(y_i|x_i))
(=-sum_{i=1}^nsum_{j=1}^np(x_i,y_i)log_2p(y_j|x_i))
條件熵的意義在於先按照變數(X)的取值對變數Y進行了一次分類,對每個分出來的類別計算其單獨的資訊熵,再將每個類的資訊熵按照(X)的分布計算其數學期望。
資訊增益
在機器學習中,資訊增益描述了一個特徵帶來的資訊量的多少,常於分類特徵的選擇,也叫互資訊
資訊增益=資訊熵-條件熵
假設存在一個隨機變數(X),和另外一個隨機變數(Y),那他們的資訊增益是
(I(X;Y)=H(Y)-H(Y|X))
可以理解為X給Y帶來的資訊增益。
對於給定的訓練數據集(Y),(H(Y))表示在未給定任何特徵時,對訓練集進行分類的不確定性
(H(Y|X))表示了使用特徵(X)對訓練集(Y)進行分類的不確定性.
資訊增益表示的是特徵(X)帶來的對訓練集(Y)分類不確定性的減少程度,也就是特徵(X)對於訓練集(Y)的區分度。
資訊增益比
資訊增益值很大程度依賴於數據集的資訊熵(H(Y)),因而不具有絕對意義。為了解決這個問題,研究者提出了資訊增益比
(g(X,Y)=I(X;Y)/H(Y))
相對熵
相對熵也叫KL散度,用於描述兩個不同概率分布之間的差異。
(D_{KL}(P||Q)=sum_{i=1}^np(x_i)log_2frac{p(x_i)}{q(x_i)})
相對熵是用來度量使用基於(P)的編碼來編碼來自(Q)的樣本平均所需的額外的比特個數。
最大熵原理
在只掌握未知分布的部分知識時,應該選取符合這這些知識但熵值最大的概率分布。
最大熵原理實質是滿足已知的知識前提下,對於未知的分布應該是自己最不能確定或最隨機的分布,因為只有這樣,最終的分布才能代表一個最公平的選擇。
資訊理論使用「資訊熵」的概念,對單個信源的資訊量和通訊中傳遞資訊的數量與效率等問題做出了解釋,並在世界的不確定性和資訊的可測量性之間搭建起一座橋樑
二、數理統計
數理統計(mathematical statistics)的任務是根據可觀察的樣本反過來推斷總體的性質
推斷的工具是統計量
,統計量是樣本的函數
,是個隨機變數
數理統計根據觀察或實驗得到的數據來研究隨機現象,並對研究對象的客觀規律做出合理的估計和判斷。
基礎的統計理論有助於對機器學習的演算法和數據挖掘的結果做出解釋,只有做出合理的解釋,數據的價值才能夠體現。
泛化能力:模型用於不屬於測試集的新樣本的能力。泛化能力越強,學習器越好
與概率論的區別
概率論在找下一個點,數理統計則是局部推整體
- 概率論作用的前提是隨機變數的分布已知,根據已知的分布來分析隨機變數的特徵和規律;
- 數理統計的研究對象是未知分布的隨機變數,研究方法是對隨機變數進行獨立重複的觀察,根據得到的觀察對原始分布做出推斷。
數理統計可以看成是逆向的概率論,更偏向於從理論角度研究方法論,進而探討如何應用
以買彩票為例
- 概率論解決的是根據已知的
搖獎規律
判斷一注號碼中獎的可能性 - 數理統計解決的是根據之前多次中獎/不中獎的號碼記錄以一定的精確性推測
搖獎的規律
,雖然可能沒什麼用。
統計推斷方式一:參數估計
參數估計通過隨機抽取的樣本來估計總體分布的未知參數,包括點估計和區間估計
* 點估計(point estimation)
具體的方法包括矩估計法(method of monents)和最大似然估計法(maximum likelihood estimation)
兩種方法都代表了推斷總體參數的思路,但是對於同一個參數,用不同的估計方法求出的估計量很可能存在差異,這通常用無偏性、有效性、一致性來評價
* 區間估計(interval estimation)
區間估計相當於在點估計的基礎上進一步提供了取值範圍和誤差界限
統計推斷方式二:假設檢驗
通過隨機抽取的樣本來接受或拒絕關於總體的某個判斷
假設檢測的作用是根據學習器在測試集上的性能推斷其泛化能力的強弱,並確定所得結論的精確程度,可以進一步推廣為比較不同學習器的性能。
泛化性誤差的構成可以為三部分:
- 偏差(bias)
演算法預測值和真實結果之間的偏離程度,刻畫的是模型的欠擬合我 - 方差(variance)
表示數據的擾動對預測性能的影響,刻畫的是模型的過擬合特性 - 雜訊(noise)
表示當前學習任務上能夠達到的最小泛化誤差,刻畫的是任務本身的難度