深度學習的數學基礎-最優化問題和回歸分析

在為了分析數據而建立數學模型時,通常模型是由參數確定的。在數學世界中,最優化問題就是如何確定這些參數。

從數學上來說,確定神經網絡的參數是一個最優化問題,具體就是對神經網絡的參數(即權重和偏置)進行擬合,使得神經網絡的輸出與實際數據相吻合。

為了理解最優化問題,最淺顯的例子就是回歸分析。下面我們就利用簡單的回歸分析問題來考察最優化問題的結構。

什麼是回歸分析

由多個變量組成的數據中,着眼於其中一個特定的變量,用其餘的變量來解釋這個特定的變量,這樣的方法稱為回歸分析。回歸分析的種類有很多。為了理解它的思想,我們來考察一下最簡單的一元線性回歸分析。

一元線性回歸分析是以兩個變量組成的數據為考察對象的。下圖給出了兩個變量x、y的數據以及它們的散點圖。
image.png

image.png
*上表數據的散點圖*

一元線性回歸分析是用一條直線近似地表示右圖所示的散點圖上的點列,通過該直線的方程來考察兩個變量之間的關係。

這條近似地表示點列的直線稱為回歸直線
image.png

用一條直線近似地表示散點圖上的點列,通過該直線的方程來考察兩個變量的關係,這樣的分析方法就是一元線性回歸分析。這條直線稱為回歸直線。

這條回歸直線用一次關係式表示如下:
image.png
這個式子稱為回歸方程

x、y是為了將構成數據的各個值代入而設定的變量,右邊的x稱為自變量,左邊的y稱為因變量。常數p、q是這個回歸分析模型的參數,由給出的數據來決定。

註:p稱為回歸係數,q稱為截距。

通過具體例子來理解回歸分析的邏輯

下面讓我們通過具體的例子來看看回歸方程(1)是如何確定的。
例題
下表是7個高中三年級女學生的身高與體重數據。根據這些數據,求以體重y為因變量、身高x為自變量的回歸方程y=px+q(p、q為常數)。
image.png

設所求的回歸方程如下所示。
image.png

將第k個學生的身高記為image.png,體重記為image.png,可以求得第k個學生的回歸分析預測的值(稱為預測值),如下所示。
image.png
我們將這些預測值加以匯總,如下表所示。
image.png
y的實測值和預測值。在考慮數學上的最優化問題時,理解實測值和預測值的差異是十分重要的。

如下算出實際的體重image.png與預測值的誤差image.png
image.png
image.png
用圖說明式(3) 和式(4)的關係。第k個學生的image.png的關係圖。

這些image.png的值既可以為正也可以為負。接下來我們來考慮下面的值image.png,這個值稱為平方誤差
image.png
註:係數1/2是為了方便進行之後的處理,這個值對結論沒有影響。

遍歷全體數據,將它們的平方誤差加起來,假設得到的值為image.png
image.png
根據之前的表以及式(5),用p、q的式子表示誤差總和image.png,如下所示。
image.png

我們的目標是確定常數p、q的值。回歸分析認為,p、q是使誤差總和式(6)最小的解。知道這個解的思路後,後面就簡單了。我們利用以下的最小值條件即可。
image.png

image.png
式(7)的圖形含義。

我們來實際計算一下式(6)。根據偏導數的鏈式法則,可得
image.png

整理後得到下式。
1113.4 p+7q=372.1,177312 p+1113.4q=59274

解這個聯立方程,可得
p=0.41, q=-12.06

從而求得目標回歸方程(2),如下所示。
註:這時image.png

y=0.41x-12.06
image.png
作為例題的解的回歸直線。

以上就是一元線性回歸分析中使用的回歸直線的確定方法。這裡的重點是最優化問題的求解思路。這裡所考察的最優化方法在後面的神經網絡的計算中也可以直接使用。

代價函數

在最優化方面,誤差總和image.png可以稱為「誤差函數」「損失函數」「代價函數」等。我們採用代價函數(cost function)這個名稱。

註:之所以不使用誤差函數(error function)、損失函數(lost function)的叫法,是因為它們的首字母容易與神經網絡中用到的熵(entropy)、層(layer)的首字母混淆。

此外,除了這裡所考察的平方誤差的總和image.png之外,根據不同的思路,代價函數還存在其他多種形式。利用平方誤差的總和image.png進行最優化的方法稱為最小二乘法。這裡我們只考慮將平方誤差的總和image.png作為代價函數。

模型參數的個數

我們再來看看之前的例題。模型有2個參數p、q,而已知的條件(數據的規模)有7個。也就是說,模型的參數的個數(2個)小於條件的個數(7個)。反過來說,回歸方程是根據大量的條件所得到的折中結果。這裡所說的「折中」是指,理想中應該取值0的代價函數image.png只能取最小值。因此,模型與數據的誤差image.png不為0也無須擔心。不過,只要誤差接近0,就可以說這是合乎數據的模型。

此外,模型的參數個數大於數據規模時又如何呢?當然,這時參數就不確定了。因此,要確定模型,就必須準備好規模大於參數個數的數據。

備註常數和變量

在回歸方程image.png中,x、y分別稱為自變量、因變量,p、q為常數。不過,在代價函數image.png中,p、q是被作為變量來處理的。正因為這樣,我們才能考慮式(6)的導數。

像這樣,根據不同的角度,常數、變量是變幻不定的。從數據的角度來看,回歸方程的x、y為變量,從代價函數的角度來看,p、q為變量。