Softmax梯度推導

2019 年 10 月 5 日
筆記

Softmax梯度推導

0.說在前面

今天來學習Softmax梯度推導及實現！

1.損失函數

矩陣乘法

矩陣相乘，矩陣A的一行乘以矩陣B的每一列，不用循環B矩陣乘法公式：

對於下面這個，則不用循環W矩陣，否則通常做法還得循環W矩陣的每一列！

score = np.dot(X[i],W)

損失函數

具體的描述看程式碼，有一點需要注意，損失函數Loss也就是cross-entropy！

在實際計算的時候，需要給分子分母同時乘以常熟C，一般C取-maxfj，目的是防止數值爆炸，所產生的導致電腦記憶體不足，計算不穩定！

def softmax_loss_naive(W, X, y, reg):    loss = 0.0    dW = np.zeros_like(W)    num_train = X.shape[0]    num_class = W.shape[1]    for i in range(num_train):        # 得到S矩陣每一行        score = np.dot(X[i],W)        # 防止數值爆炸，保持穩定性        score-=max(score)        # 分子 去指數        score = np.exp(score)        # 分母，S矩陣每一行求和        softmax_sum = np.sum(score)        # broadcast：向量除以標量        score /= softmax_sum        # 得到交叉熵，也就是softmax的loss        loss -= np.log(score[y[i]])     # 平均     loss/=num_train     # 加上正則項     loss+=reg*np.sum(W*W)    return loss, dW

2.梯度推導

shape查看

X為(D,N)，W為(N,C)

梯度求導推論

這裡Xi與Wj轉置均是行向量!

記作(2)式：

記作(3)式：

pm = [0,…1…,0]是一個是一個one hot vector

梯度求導：

利用鏈式求導法則：記作(4)式：

觀察shape：

對Wj求導後shape是(1，D)，後面三個分別是(1,C)，(C,C)，(C,D)，最終是(1,D)，記作(5)式：

記作(6)式：

上面求導分為兩種情況，記作(7)式：

Si表示S矩陣中每一行數據，那Sj對Wj求導如下：

現在取X矩陣第一行[X11,X12,…..X1n]

取W矩陣第一列[W11,W21….Wn1]

X與W矩陣相乘得S矩陣，上面X第一行與W第一列相乘得到S矩陣第一個元素，記作S01，同理我們可以得到S矩陣每一行得所有元素，分別為Si1,Si2,…..,SiC。

Wj代表W矩陣得列向量，每一列為Wj，第一列W1，後面依此類推！

那麼我們現在來分析一下Si對Wj求導，這裡推導：

對於最上面wj代表行向量，如下面所示是W矩陣(D,C)表示：記作(8)式：

回顧一下(1)式，那麼W轉置得矩陣(C,D)則為：記作(9)式：

而X矩陣(N,D)則是：記作(10)式：

而S矩陣(N,C)表示為(記作)：記作(11)式：

也就是，記作(12)式：：

S1表示第一行，Si表示第i行

現在回到求導，那麼當Si對Wj進行求導得時候，我們從列向量表示得S矩陣(12)與原始矩陣S(11)相比較，我們知道，Si對wj求導為xi，其餘全為0，得到下面結果，記作(13)式(C,D)：

帶入鏈式求導法則，得到：

梯度實現

在上述交叉熵下面添加如下程式碼即可！

# 計算梯度  for j in range(num_class):    if j!=y[i]:      dw[:,j]+=score[j]*X[i]    else:      dw[:,j]+=(score[j]-1)*X[i]