重取樣技術—Bootstrap
- 2019 年 11 月 28 日
- 筆記
版權聲明:本文為部落客原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
本文鏈接:https://blog.csdn.net/weixin_36670529/article/details/103133717
交叉檢驗
核心思想是通過保留一部份訓練集數據作為檢驗集來估計真實檢驗集的錯誤率與模型擬合效果。常用的有留一法、K折交叉驗證。
偏差方差權衡:使用的訓練集數據越多,估計偏差越小,方差越大(相關性越高的方差越大)
· 統計量:樣本X1,…,Xn的函數g(X1,…,Xn)是一個統計量。所有對總體的估計都是用統計量作為估計量的。
當我們用一個統計量作為某個參數的估計量時,為考察這個估計量的好壞程度,我們需要求出這個估計量的期望以考察無偏性,方差以考察有效性等。而一個估計量除少數幾個外往往形式非常複雜,很難用解析的形式求出其方差及其方差的估計量,這時候一個可用的工具就是Bootstrap,來求解其方差的估計量。(Bootstrap用來來求一個估計量(統計量)的方差的估計量)
而利用Bootstrap來求統計量方差估計大概是利用了大數定理,核心思想是「模擬」。詳見1
· Bootstrap(自助法)指在訓練集里有放回的重取樣等長的數據形成新的數據集並計算相關參數,重複n次得到對參數的估計,計算標準誤。
Bootstrap不僅可以用於均值估計,也可以對任意統計量,如偏差、方差等。
結果生成Bootstrap Percentile置信區間。
適用於獨立樣本,樣本間有相關如時間序列數據可採用block法分組屏蔽掉進行bootstrap
– bootstrap分布與樣本分布的比較
當我們不知道樣本分布的時候,bootstrap方法最有用。bootstrap分布和樣本分布的shape相似,因此可以用前者來估計後者。某統計量的bootstrap標準誤差等於bootstrpa分布的標準差。
Bootstrap會受到樣本量和取樣次數的影響
· 參數bootstrap Vs. 非參數的bootstrap
F的先驗:參數bootstrap中利用了分布F的先驗,表現為一個參數模型,因此多了一個步驟,估計F模型中的參數。當先驗模型正確時,參數bootstrap能得到更好的結果。而非參數bootstrap不利用F的先驗知識就能得到正確的標準誤差(在大多數情況下)。參數bootstrap能得到與Delta方法(計算變數的函數的方差)相當的結果,但更簡單。