多元回归分析

  • 2019 年 11 月 7 日
  • 筆記
总第176篇/张俊红

01.前言

前面我们讲了一元线性回归,没看过的可以先去看看:一元线性回归分析。这一篇我们来讲讲多元线性回归。一元线性回归就是自变量只有一个x,而多元线性回归就是自变量中有多个x。

多元回归的形式如下:

02.参数估计

多元回归方程中各个参数也是需要估计的,关于为什么要估计,其实我们在一元线性回归里面也讲过。与一元线性回归不同的是,一元线性回归拟合的是一条线,而多元回归拟合的是一个面。使用的方法也是最小二乘法。

03.拟合程度判断

在多元回归里面拟合程度判断与一元回归也类似,也主要有总平方和、回归平方和、残差平方和这三种。

多元回归里面也有R^2,R^2 = SSR/SST = 1 – SSE/SST。因为增加自变量的会降低残差SSE,进而导致R^2增加。

为什么加入新的变量会使SSE降低呢?因为每新加入一个新的变量,这个新的变量就会贡献一部分平方和,而这个平方和就是从残差里面分离出来的。

为了避免盲目增加自变量而导致得到一个虚高的R^2,优秀的前辈们又想出了一个新的指标,即修正后的R^2。公式如下:

公式中的n为样本量的个数,k为自变量的个数,通过n和k来调整R^2,这样就不会出现随着自变量个数的增加而导致R^2也跟着增加的情况。

我们一般用调整后的R^2来判断多元回归的准确性。

除了R^2以外,我们还可以使用标准误差来衡量回归模型的好坏。标准误差就是均方残差(MSE)的平方根,其表示根据各自变量x来预测因变量y的平均预测误差。

04.显著性检验

我们在一元线性回归里面做过显著性检验,在多元回归里面也是同样需要做显著性判断的。

4.1线性关系检验

线性关系检验就是检验y和多个x之间的关系是否显著,是总体显著性检验。

检验方法与一元线性回归一致,即我们假设没有线性关系,然后对变量进行F检验,具体的详细介绍,参考一元线性回归中讲解的。

4.2回归系数检验

线性关系显著性检验是对多个变量的一个显著性判断,也就是说只要多个x中有一个x对y的影响是显著的,线性关系就是显著的。而回归系数检验是用来看每一个x对应的系数是否是显著的。要看某个变量的系数是否显著,假设这个变量的系数等于0,然后进行t检验判断显著性。

具体的t检验可以查看假设检验的内容:统计学的假设检验

05.多重共线性

多元回归与一元回归还有一个不同点就是,多元回归有可能会存在多重共线性。

什么是多重共线性呢?多元回归里面我们希望是多个x分别对y起作用,也就是x分别与y相关。但在实际场景中,可能x1与x2之间彼此相关,我们把这种x变量之间彼此相关的情况称为多重共线性。多重共线性可能会让回归得到一个错误的结果。

既然多重共线性的问题很严重,那我们应该如何发现呢?最简单的一种方法就是求变量之间的相关性,如果两个变量之间高度相关,就可以认为是存在多重共线性。

对于存在多重共线性问题的变量,我们一般会把其中一个舍弃。

以上就是关于多元回归的一个简单介绍,大家可以看到很多内容没有展开来讲,主要是因为这些东西在之前的文章都讲过了。如果没有看过的同学,可以去前面对应的文章翻翻。

你还可以看:

聊聊置信度与置信区间

统计学的假设检验

一元线性回归分析

方差分析

多因素方差分析

卡方检验讲解

多重比较法-LSD