線性回歸|機器學習推導系列(三)
一、概述
假設有以下數據:
這些數據符合下圖關係(以一維數據為例),這裡的函數忽略了偏置
:
二、最小二乘估計
接下來通過對求導就可以解得參數w:
以上未考慮偏執,如果考慮的話則可以為
添加一個維度,同時也為
添加一個維度並使得添加的維度的值為
,然後使用同樣的求解方法即可。.
三、線性回歸的幾何解釋
1. 每個樣本點的誤差的總和
使用最小二乘法可以看做損失函數是每個樣本的誤差的總和,每個樣本的誤差即是與
的差,如下圖所示:
2. 在
的列空間上的投影
一組向量的生成子空間(span)是原始向量線性組合後所能抵達的點的集合。確定方程
是否有解,相當於確定向量
是否在
列向量的生成子空間中。這個特殊的生成子空間被稱為
的列空間(column space)或者
的值域(range)。
我們的目的是為了求解使得
,顯然這個方程一般是無解的,即
一般不在
的列空間中,因為樣本點一般是散落在某條直線周圍,所有的樣本點準確地落在同一條直線上的情況少之又少。
對於,為了使
與
最接近,則
就應該是
在
的列空間中的投影,如下圖所示,以
為例:
就應該與每一個
都垂直,即
,則可以直接解得
。
四、最小二乘法與極大似然估計
可以認為實際值與估計值之間的差是一個高斯噪聲,即和
滿足關係
,其中
是高斯噪聲,滿足
,因此
,即
可以使用極大似然估計法來進行求解:
可以看到最小二乘法與噪聲為高斯噪聲時的極大似然估計法是等價的。
五、線性回歸的正則化
1. 高維小樣本的問題
當樣本數遠大於維度
時
可逆,而當出現高維小樣本的情況即維度
大於樣本數
時,
就不可逆,這種時候就容易出現過擬合的情況。
2. 處理過擬合的方法
面對上述過擬合的現象有一些解決方案,主要有
特徵選擇指的是根據某種規則去掉一些特徵來實現降維;特徵提取的方法例如主成分分析(PCA),也是實現降維;正則化的方法指給損失函數添加懲罰項來避免過擬合。
3. 正則化的方法
通過最小化來實現正則化,主要有L1正則化和L2正則化(也叫嶺回歸、權重衰減)。
下面為L2正則化的求解過程:
半正定矩陣加上對角矩陣
一定是可逆的,可以解決
可能不可逆帶來的問題。
六、最小二乘法與最大後驗估計
1. 已知
仍然認為實際值與估計值之間的差是一個高斯噪聲,即和
滿足關係:
另外假設參數的服從先驗分佈:
2. 最大後驗估計法求解參數
可以看到正則化的最小二乘法與噪聲為高斯噪聲且先驗也是高斯分佈時的最大後驗估計法是等價的。
3. 總結