多元回歸分析

  • 2019 年 11 月 7 日
  • 筆記
總第176篇/張俊紅

01.前言

前面我們講了一元線性回歸,沒看過的可以先去看看:一元線性回歸分析。這一篇我們來講講多元線性回歸。一元線性回歸就是自變數只有一個x,而多元線性回歸就是自變數中有多個x。

多元回歸的形式如下:

02.參數估計

多元回歸方程中各個參數也是需要估計的,關於為什麼要估計,其實我們在一元線性回歸裡面也講過。與一元線性回歸不同的是,一元線性回歸擬合的是一條線,而多元回歸擬合的是一個面。使用的方法也是最小二乘法。

03.擬合程度判斷

在多元回歸裡面擬合程度判斷與一元回歸也類似,也主要有總平方和、回歸平方和、殘差平方和這三種。

多元回歸裡面也有R^2,R^2 = SSR/SST = 1 – SSE/SST。因為增加自變數的會降低殘差SSE,進而導致R^2增加。

為什麼加入新的變數會使SSE降低呢?因為每新加入一個新的變數,這個新的變數就會貢獻一部分平方和,而這個平方和就是從殘差裡面分離出來的。

為了避免盲目增加自變數而導致得到一個虛高的R^2,優秀的前輩們又想出了一個新的指標,即修正後的R^2。公式如下:

公式中的n為樣本量的個數,k為自變數的個數,通過n和k來調整R^2,這樣就不會出現隨著自變數個數的增加而導致R^2也跟著增加的情況。

我們一般用調整後的R^2來判斷多元回歸的準確性。

除了R^2以外,我們還可以使用標準誤差來衡量回歸模型的好壞。標準誤差就是均方殘差(MSE)的平方根,其表示根據各自變數x來預測因變數y的平均預測誤差。

04.顯著性檢驗

我們在一元線性回歸裡面做過顯著性檢驗,在多元回歸裡面也是同樣需要做顯著性判斷的。

4.1線性關係檢驗

線性關係檢驗就是檢驗y和多個x之間的關係是否顯著,是總體顯著性檢驗。

檢驗方法與一元線性回歸一致,即我們假設沒有線性關係,然後對變數進行F檢驗,具體的詳細介紹,參考一元線性回歸中講解的。

4.2回歸係數檢驗

線性關係顯著性檢驗是對多個變數的一個顯著性判斷,也就是說只要多個x中有一個x對y的影響是顯著的,線性關係就是顯著的。而回歸係數檢驗是用來看每一個x對應的係數是否是顯著的。要看某個變數的係數是否顯著,假設這個變數的係數等於0,然後進行t檢驗判斷顯著性。

具體的t檢驗可以查看假設檢驗的內容:統計學的假設檢驗

05.多重共線性

多元回歸與一元回歸還有一個不同點就是,多元回歸有可能會存在多重共線性。

什麼是多重共線性呢?多元回歸裡面我們希望是多個x分別對y起作用,也就是x分別與y相關。但在實際場景中,可能x1與x2之間彼此相關,我們把這種x變數之間彼此相關的情況稱為多重共線性。多重共線性可能會讓回歸得到一個錯誤的結果。

既然多重共線性的問題很嚴重,那我們應該如何發現呢?最簡單的一種方法就是求變數之間的相關性,如果兩個變數之間高度相關,就可以認為是存在多重共線性。

對於存在多重共線性問題的變數,我們一般會把其中一個捨棄。

以上就是關於多元回歸的一個簡單介紹,大家可以看到很多內容沒有展開來講,主要是因為這些東西在之前的文章都講過了。如果沒有看過的同學,可以去前面對應的文章翻翻。

你還可以看:

聊聊置信度與置信區間

統計學的假設檢驗

一元線性回歸分析

方差分析

多因素方差分析

卡方檢驗講解

多重比較法-LSD