計算機視覺那些事 | 深度學習基礎篇

2019 年 10 月 8 日
筆記

本文轉載自視說AI

寫在前面

隨着人工智能尤其是深度學習的快速發展，計算機視覺成為了這些年特別熱門的研究方向。在這裡我們將開啟一個全新的系列【計算機視覺那些事】，來分享我們這些年在計算機視覺上的一些認識和經驗。在這個系列中，我們主要會圍繞計算機視覺中的深度學習算法展開，包含圖像分類、目標檢測、圖像分割和視頻理解等諸多領域的理論和應用。

下面開始該系列的第一篇文章，在這篇文章中我們會對深度學習具體以深度神經網絡為主的基礎知識進行深入淺出的介紹，希望從零開始和大家一起一步步走進計算機視覺的世界。

神經網絡的起源：感知機

在談深度學習之前，我們首先來回顧一下感知機模型。感知機是深度神經網絡的起源算法，學習和掌握感知機是通向深度學習的必經之路。

感知機是第一個從算法上完整描述的神經網絡模型，也是應用於二分類任務的最簡單的模型之一，模型的輸入為樣本的特徵向量，輸出為樣本的類別，分別用 1 和 -1 表示。感知機的目標是將輸入空間（特徵空間）中的樣本劃分為正負兩類分離的超平面，它的數學描述下式所示：

其中，wi表示輸入樣本的第i個特徵xi所對應的權值，b表示模型具有的偏置量，f表示激活函數，這裡使用sign階躍函數，即大於0為1，其餘為-1，y表示輸入樣本預測的標籤。

在實際應用中，權值w和偏置b需要在訓練過程中經過多次迭代來更新。為了便於表示，我們採用X來表示輸入特徵，W表示權值矩陣，將X和W改寫為如下形式：

那麼感知機就可以改寫為

直觀的計算流程如下圖所示。

在感知機訓練的過程中，我們針對分類錯誤的樣本不斷進行權值修正，逐步迭代直至最終分類符合預定標準，從而確定權值。具體地，我們一般採用基於誤分類的損失函數，通過梯度下降算法來進行權值的更新，更新過程如下式所示：

其中，d(n)表示第n次輸入X(n)所對應的實際標籤，y(n)表示第n次輸入時感知機輸出的預測標籤，η表示學習率。

以圖像二分類為例，假設我們已經有了每張圖像的特徵x和其對應的類別y，利用上述介紹的感知機就能夠快速構建出一個圖像二分類模型，然而感知機在分類過程中只能確定一個超平面，適合處理線性可分問題，但在複雜的非線性場景中並不擅長。

多層感知機

上一節我們介紹了處理簡單二分類數據的單個感知機，在這一節中我們將從單個感知機過渡到多層感知機（MLP）。多層感知機是一種經典的神經網絡模型，可以廣泛地應用於複雜的非線性分類場景。下圖展示了一個典型的多層感知機，也被稱為全連接神經網絡，其中每個藍色的神經元代表一個感知機。

多層感知機將多個感知機（神經元）排列組成一個神經網絡，與上一節介紹的感知機相比，增加了多個隱藏層，隨着隱藏層數量的增加，模型的表達能力也不斷增強，但同時也會增加網絡的複雜度。此外，多層感知機可以有多個輸出，這樣模型可以靈活的應用於多分類任務。

在多層感知機中，每個神經元都會經過一個激活函數，激活函數給神經元引入了非線性因素，使得神經網絡可以任意逼近任何非線性函數，這樣神經網絡就可以應用到眾多的非線性模型中。試想一下如果沒有激活函數每一層輸出都是上層輸入的線性函數，無論神經網絡有多少層，輸出都是輸入的線性組合，這樣的神經網絡也就沒有實際意義了。

反向傳播

多層感知機隨着隱藏層數量的增加，使得網絡最優權值的搜索空間變得很大。因此多層感知機的訓練過程變得十分複雜。一般我們使用梯度下降來進行網絡的訓練，在訓練過程中通過反向傳播實現梯度的計算，其中包含兩個階段：