詳解Softmax函數

2020 年 11 月 3 日
AI

前言

提到二分類首先想到的可能就是邏輯回歸算法。邏輯回歸算法是在各個領域中應用比較廣泛的機器學習算法。邏輯回歸算法本身並不難，最關鍵的步驟就是將線性模型輸出的實數域映射到[0, 1]表示概率分佈的有效實數空間，其中Sigmoid函數剛好具有這樣的功能。

▲Sigmoid函數

例如使用邏輯回歸算法預測患者是否有惡性腫瘤的二分類問題中，輸出層可以只設置一個節點，表示某個事件A發生的概率為

，其中x為輸入。對於患者是否有惡性腫瘤的二分類問題中，A事件可以表示為惡性腫瘤或表示為良性腫瘤（

表示為良性腫瘤或惡性腫瘤），x為患者的一些特徵指標。

▲擁有單個輸出節點的二分類

對於二分類問題，除了可以使用單個輸出節點表示事件A發生的概率外，還可以分別預測和，並滿足約束：。其中表示事件A的對立事件。

▲擁有兩個輸出節點的二分類

兩個節點輸出的二分類相比於單節點輸出的二分類多了一個的約束條件，這個約束條件將輸出節點的輸出值變成一個概率分佈，簡單來說各個輸出節點的輸出值範圍映射到[0, 1]，並且約束各個輸出節點的輸出值的和為1。當然可以將輸出為兩個節點的二分類推廣成擁有n個輸出節點的n分類問題。

有沒有將各個輸出節點的輸出值範圍映射到[0, 1]，並且約束各個輸出節點的輸出值的和為1的函數呢？

當然，這個函數就是Softmax函數。

什么是 Softmax 函數？

Softmax從字面上來說，可以分成soft和max兩個部分。max故名思議就是最大值的意思。Softmax的核心在於soft，而soft有軟的含義，與之相對的是hard硬。很多場景中需要我們找出數組所有元素中值最大的元素，實質上都是求的hardmax。下面使用Numpy模塊以及TensorFlow深度學習框架實現hardmax。

使用Numpy模塊實現hardmax：

使用TensorFlow深度學習框架實現hardmax：

通過上面的例子可以看出hardmax最大的特點就是只選出其中一個最大的值，即非黑即白。但是往往在實際中這種方式是不合情理的，比如對於文本分類來說，一篇文章或多或少包含着各種主題信息，我們更期望得到文章對於每個可能的文本類別的概率值（置信度），可以簡單理解成屬於對應類別的可信度。所以此時用到了soft的概念，Softmax的含義就在於不再唯一的確定某一個最大值，而是為每個輸出分類的結果都賦予一個概率值，表示屬於每個類別的可能性。

下面給出Softmax函數的定義（以第i個節點輸出為例）：

，其中為第i個節點的輸出值，C為輸出節點的個數，即分類的類別個數。通過Softmax函數就可以將多分類的輸出值轉換為範圍在[0, 1]和為1的概率分佈。

引入指數函數對於Softmax函數是把雙刃劍，即得到了優點也暴露出了缺點：

引入指數形式的優點

▲y=e^{x}函數圖像

指數函數曲線呈現遞增趨勢，最重要的是斜率逐漸增大，也就是說在x軸上一個很小的變化，可以導致y軸上很大的變化。這種函數曲線能夠將輸出的數值拉開距離。假設擁有三個輸出節點的輸出值為為[2, 3, 5]。首先嘗試不使用指數函數，接下來使用指數函數的Softmax函數計算。

tf.Tensor([0.2 0.3 0.5], shape=(3,), dtype=float32)tf.Tensor([0.04201007 0.11419519 0.8437947 ], shape=(3,), dtype=float32)

兩種計算方式的輸出結果分別是：

tf.Tensor([0.2 0.3 0.5], shape=(3,), dtype=float32)
tf.Tensor([0.04201007 0.11419519 0.8437947],shape=(3,), dtype=float32)

結果還是挺明顯的，經過使用指數形式的Softmax函數能夠將差距大的數值距離拉的更大。

在深度學習中通常使用反向傳播求解梯度進而使用梯度下降進行參數更新的過程，而指數函數在求導的時候比較方便。比如

。

引入指數形式的缺點

指數函數的曲線斜率逐漸增大雖然能夠將輸出值拉開距離，但是也帶來了缺點，當

值非常大的話，計算得到的數值也會變的非常大，數值可能會溢出。

當然針對數值溢出有其對應的優化方法，將每一個輸出值減去輸出值中最大的值。

這裡需要注意一下，當使用Softmax函數作為輸出節點的激活函數的時候，一般使用交叉熵作為損失函數。由於Softmax函數的數值計算過程中，很容易因為輸出節點的輸出值比較大而發生數值溢出的現象，在計算交叉熵的時候也可能會出現數值溢出的問題。為了數值計算的穩定性，TensorFlow提供了一個統一的接口，將Softmax與交叉熵損失函數同時實現，同時也處理了數值不穩定的異常，使用TensorFlow深度學習框架的時候，一般推薦使用這個統一的接口，避免分開使用Softmax函數與交叉熵損失函數。

TensorFlow提供的統一函數式接口為：