模型之母：簡單線性回歸的程式碼實現

2019 年 11 月 4 日
筆記

模型之母：簡單線性回歸的程式碼實現

關於作者：餅乾同學，某人工智慧公司交付開發工程師/建模科學家。專註於AI工程化及場景落地，希望和大家分享成長中的專業知識與思考感悟。

0x00 前言

在《模型之母：簡單線性回歸&最小二乘法》中，我們從數學的角度理解了簡單線性回歸，並且推導了最小二乘法。

本文內容完全承接於上一篇，我們來以程式碼的方式，實現簡單線性回歸。話不多說，碼起來

0x01 簡單線性回歸演算法的實現

首先我們自己構造一組數據，然後畫圖

# 首先要計算x和y的均值  x_mean = np.mean(x)  y_mean = np.mean(y)    # a的分子num、分母d  num = 0.0  d = 0.0  for x_i,y_i in zip(x,y):   # zip函數打包成[(x_i,y_i)...]的形式      num = num + (x_i - x_mean) * (y_i - y_mean)      d = d + (x_i - x_mean) ** 2  a = num / d  b = y_mean - a * x_mean

下面我們就可以根據樣本真實值，來進行預測。

實際上，我們是假設線性關係為：這根直線，然後再根據最小二乘法算a、b的值。我們還可以假設為二次函數：。可以通過最小二乘法算出a、b、c

實際上，同一組數據，選擇不同的f(x)，即模型，通過最小二乘法可以得到不一樣的擬合曲線。

不同的數據，更可以選擇不同的函數，通過最小二乘法可以得到不一樣的擬合曲線。

下面讓我們回到簡單線性回歸。我們直接假設是一條直線，模型是：

根據最小二乘法推導求出a、b的表達式：

下面我們用程式碼計算a、b：

y_hat = a * x + b    plt.scatter(x,y)    # 繪製散點圖  plt.plot(x,y_hat,color='r')    # 繪製直線  plt.axis([0,6,0,6])  plt.show()

在求出a、b之後，可以計算出y的預測值，首先繪製模型直線：

y_hat = a * x + b  plt.scatter(x,y)    # 繪製散點圖plt.plot(x,y_hat,color='r')    # 繪製直線plt.axis([0,6,0,6])plt.show()

然後進行預測：

x_predict = 6  y_predict = a * x_predict + b  print(y_predict

5.2

0x02 向量化運算

我們注意到，在計算參數a時：

# a的分子num、分母d  num = 0.0  d = 0.0  for x_i,y_i in zip(x,y):   # zip函數打包成[(x_i,y_i)...]的形式      num = num + (x_i - x_mean) * (y_i - y_mean)      d = d + (x_i - x_mean) ** 2  a = num / d

我們發現有這樣一個步驟：向量w和向量v，每個向量的對應項，相乘再相加。其實這就是兩個向量「點乘」

這樣我們就可以使用numpy中的dot運算，非常快速地進行向量化運算。

總的來說：

向量化是非常常用的加速計算的方式，特別適合深度學習等需要訓練大數據的領域。

對於 y = wx + b, 若 w, x都是向量，那麼，可以用兩種方式來計算，第一是for循環：

y = 0  for i in range(n):      y += w[i]*x[i]      y += b

另一種方法就是用向量化的方式實現：

y = np.dot(w,x) + b

二者計算速度相差幾百倍，測試結果如下：

import numpy as np  import time    a = np.random.rand(1000000)  b = np.random.rand(1000000)    tic = time.time()  c = np.dot(a, b)  toc = time.time()  print("c: %f" % c)  print("vectorized version:" + str(1000*(toc-tic)) + "ms")    c = 0  tic = time.time()  for i in range(1000000):      c += a[i] * b[i]  toc = time.time()  print("c: %f" % c)  print("for loop:" + str(1000*(toc-tic)) + "ms")

c: 249981.256724  vectorized version:0.998973846436ms  c: 249981.256724  for loop:276.798963547ms

對於獨立的樣本，用for循環串列計算的效率遠遠低於向量化後，用矩陣方式並行計算的效率。因此：

只要有其他可能，就不要使用顯示for循環。

0x03 自實現的工程文件

3.1 程式碼

還記得我們之前的工程文件嗎？創建一個SimpleLinearRegression.py，實現自己的工程文件並調用

import numpy as np    class SimpleLinearRegression:      def __init__(self):          """模型初始化函數"""          self.a_ = None          self.b_ = None        def fit(self, x_train, y_train):          """根據訓練數據集x_train,y_train訓練模型"""          assert x_train.ndim ==1,               "簡單線性回歸模型僅能夠處理一維特徵向量"          assert len(x_train) == len(y_train),               "特徵向量的長度和標籤的長度相同"          x_mean = np.mean(x_train)          y_mean = np.mean(y_train)          num = (x_train - x_mean).dot(y_train - y_mean)  # 分子          d = (x_train - x_mean).dot(x_train - x_mean)    # 分母          self.a_ = num / d          self.b_ = y_mean - self.a_ * x_mean            return self        def predict(self, x_predict):          """給定待預測數據集x_predict，返回表示x_predict的結果向量"""          assert x_predict.ndim == 1,               "簡單線性回歸模型僅能夠處理一維特徵向量"          assert self.a_ is not None and self.b_ is not None,               "先訓練之後才能預測"          return np.array([self._predict(x) for x in x_predict])        def _predict(self, x_single):          """給定單個待預測數據x_single，返回x_single的預測結果值"""          return self.a_ * x_single + self.b_        def __repr__(self):          """返回一個可以用來表示對象的可列印字元串"""          return "SimpleLinearRegression()"

3.2 調用

下面我們在jupyter中調用我們自己寫的程式：

首先創建一組數據，然後生成SimpleLinearRegression()的對象reg1，然後調用一下

from myAlgorithm.SimpleLinearRegression import SimpleLinearRegression    x = np.array([1.,2.,3.,4.,5.])  y = np.array([1.,3.,2.,3.,5,])  x_predict = np.array([6])  reg = SimpleLinearRegression()  reg.fit(x,y)

輸出：SimpleLinearRegression()

reg.predict(x_predict)  reg.a_  reg.a_

輸出：array([5.2]) 0.8 0.39999999999999947

y_hat = reg.predict(x)    plt.scatter(x,y)  plt.plot(x,y_hat,color='r')  plt.axis([0,6,0,6])  plt.show()

0xFF 總結

在本篇文章中，我們實現了簡單線性回歸演算法的程式碼，並且使用了向量化運算，事實證明，向量化運算能夠提高運算效率。

同時我們發現，只要數學公式推導清楚了，實際寫程式碼時沒有太多難度的。

那麼我們思考一個問題，在之前的kNN演算法（分類問題）中，使用分類準確度來評價演算法的好壞，那麼回歸問題中如何評價好壞呢？