一文看懂人臉識別演算法技術發展脈絡

2020 年 6 月 8 日
筆記
ModelArts, 人臉識別, 華為雲新鮮技術分享, 模型訓練, 深度學習, 演算法

【摘要】我們從人臉識別技術的技術細節講起，帶你初步了解人臉識別技術的發展過程。通過平台實例的操作，帶你看看如何利用公有雲的計算資源，快速訓練一個可用的人臉識別模型。

前言

大家應該都看過布拉德.伯德執導、湯姆.克魯斯主演的《碟中諜4吧》？茫茫人海的火車站，只要一眨眼的功夫已經被電腦識別出來，隨即被特工盯梢；迎面相逢的美女是致命殺手，手機發出嘀嘀的報警聲，上面已經顯示美女的姓名和資訊。這就是本文想要介紹的人臉識別演算法，以及如果使用公有雲AI平台訓練模型。

作為目前人工智慧領域中成熟較早、落地較廣的技術之一，人臉識別的目的是要判斷圖片和影片中人臉的身份。從平常手機的刷臉解鎖、刷臉支付，再到安防領域內的人臉識別布控，等等，人臉識別技術都有著廣泛的應用。人臉是每個人與生俱來的特徵，該特徵具有唯一性並且不易被複制，從而為身份鑒別提供了必要的前提。

人臉識別的研究始於20世紀60年代，隨著電腦技術和光學成像技術的發展不斷提高，以及近幾年神經網路技術的再次興起，尤其是卷積神經網路在影像識別和檢測中取得的巨大成功，使得人臉識別系統的效果得到了極大的提升。本文，我們從人臉識別技術的技術細節講起，帶你初步了解人臉識別技術的發展過程，文章的後半篇，我們將會使用ModelArts平台的自定義鏡像，帶你看看如何利用公有雲的計算資源，快速訓練一個可用的人臉識別模型。

正文

不管是基於傳統影像處理和機器學習技術，還是利用深度學習技術，其中的流程都是一樣的。如圖1所示，人臉識別系統都包括人臉檢測、對齊、編碼以及匹配四個基本環節組成。所以該部分首先通過對基於傳統影像處理和機器學習演算法的人臉識別系統進行概述，就可以看出整個深度學習演算法在人臉識別領域內發展的脈絡。

人臉檢測流程

傳統機器學習演算法

前面已經說過，人臉識別的目的就是要判斷影像中的人臉身份是什麼，所以就首先需要先把影像中的人臉檢測出來，其實這一步歸根結底就是一個目標檢測的問題。傳統的影像目標檢測演算法主要有三部分組成，建議框生成、特徵工程以及分類，包括著名的RCNN系列演算法的優化思路也是基於這三部分進行的。

首先是建議框生成，該步驟最簡單的想法就是在圖片中crop出來一堆待檢測框，然後檢測該框內是否存在目標，如果存在，則該框在原圖中的位置即為目標檢測出的位置，因此在該步驟中對目標的覆蓋率越大，則建議框生成策略越好。常見的建議框生成策略有sliding window、Selective Search、Randomized Prim等等，生成大量的候選框，如下圖所示。

得到大量的候選框後，傳統的人臉檢測演算法接下來最主要的部分就是特徵工程。特徵工程其實就是利用演算法工程師的專家經驗對不同場景的人臉提取各種特徵，例如邊緣特徵、形狀形態學特徵、紋理特徵等等，具體的演算法是技術有LBP、Gabor、Haar、SIFT等等特徵提取演算法，將一張以二維矩陣表示的人臉圖片轉換成各種特徵向量的表示。

得到特徵向量之後，就可以通過傳統的機器學習分類器對特徵進行分類，得到是否是人臉的判斷，例如通過adaboost、cascade、SVM、隨機森林等等。通過傳統分類器分類之後就可以得到人臉的區域、特徵向量以及分類置信度等等。通過這些資訊，我們就可以完成人臉對齊、特徵表示以及人臉匹配識別的工作。

以傳統方法中，經典的HAAR+AdaBoost的方法為例，在特徵提取階段，首先會利用haar特徵在圖片中提取出很多簡單的特徵。Haar特徵如下圖所示。為了滿足不同大小人臉的檢測，通常會利用高斯金字塔對不同解析度的影像進行Haar特徵的提取。

Haar特徵的計算方法是將白色區域內的像素和減去黑色區域，因此在人臉和非人臉的區域內，得到的值是不一樣的。一般在具體實現過程中，可以通過積分圖的方法快速實現。一般在歸一化到20*20的訓練圖片中，可供使用的Haar特徵數在一萬個左右，因此在這種特徵規模的情況下，可以利用機器學習的演算法進行分類和識別。

得到Haar特徵後，可以利用Adaboost進行分類，Adaboost演算法是一種將多個比較弱的分類方法合在一起，組合出新的強分類方法。根據該級聯分類器，和訓練好的各個特徵選擇閾值，就可以完成對人臉的檢測。

從上述方法可以看出，傳統的機器學習演算法是基於特徵的演算法，因此需要大量的演算法工程師的專家經驗進行特徵工程和調參等工作，演算法效果也不是很好。而且人工設計在無約束環境中對不同變化情況都魯棒很困難的。過去的影像演算法是工程師更多的是通過傳統的影像處理方法，根據現實場景和專家經驗提取大量的特徵，然後對提取的特徵再進行統計學習的處理，這樣整體演算法的性能就非常依賴於現實場景和專家經驗，對於人臉這種類別巨大，每類樣本不均衡情況嚴重的無約束場景效果並不是很好。因此，近幾年隨著深度學習在影像處理中取得的巨大成功，人臉識別技術也都以深度學習為主，並且已經達到了非常好的效果。

深度學習在人臉識別領域的應用

在深度學習的人臉識別系統中，該問題被分成了一個目標檢測問題和一個分類問題，而目標檢測問題在深度學習中本質還是一個分類問題和回歸問題，因此隨著卷積神經網路在圖片分類上的成功應用，人臉識別系統的效果得到了快速且巨大的提升，並以此誕生了大量的視覺演算法公司，並將人臉識別應用在了社會生活的各個方面。

其實利用神經網路來做人臉識別並不是什麼新思想，1997年就有研究者為人臉檢測、眼部定位和人臉識別提出了一種名為基於概率決策的神經網路的方法。這種人臉識別 PDBNN 被分成了每一個訓練主體一個全連接子網路，以降低隱藏單元的數量和避免過擬合。研究者使用密度和邊特徵分別訓練了兩個 PBDNN，然後將它們的輸出組合起來得到最終分類決定。但是受限於當時算力和數據的嚴重不足，演算法相對簡單，因此該演算法並沒有得到很好的效果。隨著僅今年反向傳播理論和算力框架等的日趨成熟，人臉識別演算法的效果才開始得到巨大的提升。

在深度學習中，一個完整的人臉識別系統也包括圖1所示的四個步驟，其中第一步驟叫做人臉檢測演算法，本質也是一個目標檢測演算法。第二個步驟叫做人臉對齊，目前又基於關鍵點的幾何對齊和基於深度學習的人臉對齊。第三個步驟特徵表示，在深度學習中是通過分類網路的思想，提取分類網路中的一些feature層作為人臉的特徵表示，然後用相同的方式對標準人臉像進行處理，最後通過比對查詢的方式完成整體的人臉識別系統。下面主要對人臉檢測和人臉識別演算法的發展進行簡單綜述。

人臉檢測

深度學習在影像分類中的巨大成功後很快被用於人臉檢測的問題，起初解決該問題的思路大多是基於CNN網路的尺度不變性，對圖片進行不同尺度的縮放，然後進行推理並直接對類別和位置資訊進行預測。另外，由於對feature map中的每一個點直接進行位置回歸，得到的人臉框精度比較低，因此有人提出了基於多階段分類器由粗到細的檢測策略檢測人臉，例如主要方法有Cascade CNN、 DenseBox和MTCNN等等。

MTCNN是一個多任務的方法，第一次將人臉區域檢測和人臉關鍵點檢測放在了一起，與Cascade CNN一樣也是基於cascade的框架，但是整體思路更加的巧妙合理，MTCNN總體來說分為三個部分：PNet、RNet和ONet，網路結構如下圖所示。

首先PNet網路對輸入圖片resize到不同尺寸，作為輸入，直接經過兩層卷積後，回歸人臉分類和人臉檢測框，這部分稱之為粗檢測。將粗檢測得到的人臉從原圖中crop出來後，在輸入的R-Net，再進行一次人臉檢測。最後將得到的人臉最終輸入O-Net，得到的O-Net輸出結果為最終的人臉檢測結果。MTCNN整體流程相對比較簡單，能夠快速的進行部署和實現，但是MTCNN的缺點也很多。包括多階段任務訓練費時，大量中間結果的保存需要佔用大量的存儲空間。另外，由於改網路直接對feature點進行bounding box的回歸，對於小目標人臉檢測的效果也不是很好。還有，該網路在推理的過程中為了滿足不同大小人臉檢測需要，要將人臉圖片resize到不同尺寸內，嚴重影響了推理的速度。

隨著目標檢測領域的發展，越來越多的實驗證據證明目標檢測中更多的瓶頸在於底層網路語義低但定位精度相對較高和高層網路語義高但定位精度低的矛盾，目標檢測網路也開始流行anchor-based的策略和跨層融合的策略，例如著名的Faster-rcnn、SSD和yolo系列等。因此，人臉檢測演算法也越來越多的利用anchor和多路輸出來滿足不同大小人臉檢出的效果，其中最著名的演算法就是SSH網路結構。

從上圖中可以看出，SSH網路已經有對不同網路層輸出進行處理的方法，只需要一遍推理就能完成不同大小人臉的檢測過程，因此稱之為Single Stage。SSH的網路也比較簡單，就是對VGG不同卷積層驚醒了分支計算並輸出。另外還對高層feature進行了上取樣，與底層feature做Eltwise Sum來完成底層與高層的特徵融合。另外SSH網路還設計了detection module和context module，其中context module作為detection module的一部分，採用了inception的結構，獲取更多上下文資訊以及更大的感受野。

SSH中的detection module模組SSH中detection module里的context module模組

SSH利用1×1卷積對輸出最終的回歸和分類的分支結果，並沒有利用全連接層，因此可以保證不同尺寸圖片的輸入都能得到輸出的結果，也是響應了當時全卷積設計方式的潮流。遺憾的是該網路並沒有輸出landmark點，另外其實上下文結構也沒有用到比較流行的特徵金字塔結構，VGG16的backbone也相對較淺，隨著人臉優化技術的不斷進行，各種各樣的trick也都日趨成熟。因此，最後向大家介紹一下目前人臉檢測演算法中應用比較廣的Retinaface網路。

Retinaface由google提出，本質是基於RetinaNet的網路結構，採用特徵金字塔技術，實現了多尺度資訊的融合，對檢測小物體有重要的作用。網路結構如下所示。

從上圖可以看出，Retinaface的backbone網路為常見的卷積神經網路，然後加入特徵金子塔結構和Context Module模組，進一步融合上下文的資訊，並完成包括分類、檢測、landmark點回歸以及影像自增強的多種任務。

因為人臉檢測的本質是目標檢測任務，目標檢測未來的方向也適用於人臉的優化方向。目前在目標檢測中小目標、遮擋目標的檢測依舊很困難，另外大部份檢測網路更多的開始部署在端側，因此基於端側的網路模型壓縮和重構加速等等更加考驗演算法工程師對與深度學習檢測演算法的理解和應用。

人臉識別

人臉識別問題本質是一個分類問題，即每一個人作為一類進行分類檢測，但實際應用過程中會出現很多問題。第一，人臉類別很多，如果要識別一個城鎮的所有人，那麼分類類別就將近十萬以上的類別，另外每一個人之間可獲得的標註樣本很少，會出現很多長尾數據。根據上述問題，要對傳統的CNN分類網路進行修改。

我們知道深度卷積網路雖然作為一種黑盒模型，但是能夠通過數據訓練的方式去表徵圖片或者物體的特徵。因此人臉識別演算法可以通過卷積網路提取出大量的人臉特徵向量，然後根據相似度判斷與底庫比較完成人臉的識別過程，因此演算法網路能不能對不同的人臉生成不同的特徵，對同一人臉生成相似的特徵，將是這類embedding任務的重點，也就是怎麼樣能夠最大化類間距離以及最小化類內距離。

在人臉識別中，主幹網路可以利用各種卷積神經網路完成特徵提取的工作，例如resnet，inception等等經典的卷積神經網路作為backbone，關鍵在於最後一層loss function的設計和實現。現在從兩個思路分析一下基於深度學習的人臉識別演算法中各種損失函數。

思路1：metric learning，包括contrastive loss, triplet loss以及sampling method

思路2：margin based classification，包括softmax with center loss, sphereface, normface, AM-sofrmax(cosface) 和arcface。

1. Metric Larning

（1）Contrastive loss

深度學習中最先應用metric learning思想之一的便是DeepID2了。其中DeepID2最主要的改進是同一個網路同時訓練verification和classification（有兩個監督訊號）。其中在verification loss的特徵層中引入了contrastive loss。

Contrastive loss不僅考慮了相同類別的距離最小化，也同時考慮了不同類別的距離最大化，通過充分運用訓練樣本的label資訊提升人臉識別的準確性。因此，該loss函數本質上使得同一個人的照片在特徵空間距離足夠近，不同人在特徵空間里相距足夠遠直到超過某個閾值。(聽起來和triplet loss有點像)。

Contrastive loss引入了兩個訊號，並通過兩個訊號對網路進行訓練。其中識別訊號的表達式如下：

驗證訊號的表達式如下：

基於這樣的訊號，DeepID2在訓練的時候就不是以一張圖片為單位了，而是以Image Pair為單位，每次輸入兩張圖片，為同一人則為1，如果不是同一人則為-1.

（2）Triplet loss from FaceNet

這篇15年來自Google的FaceNet同樣是人臉識別領域分水嶺性質的工作。它提出了一個絕大部分人臉問題的統一解決框架，即：識別、驗證、搜索等問題都可以放到特徵空間里做，需要專註解決的僅僅是如何將人臉更好的映射到特徵空間。

Google在DeepID2的基礎上，拋棄了分類層即Classification Loss，將Contrastive Loss改進為Triplet loss，只為了一個目的：學習到更好的feature。

直接貼出Triplet loss的損失函數，其輸入的不再是Image Pair，而是三張圖片(Triplet)，分別為Anchor Face, Negative Face和Positive Face。Anchor與Positive Face為同一人，與Negative Face為不同的人。那麼Triplet loss的損失函數即可表示為：

該式子的直觀解釋為：在特徵空間里Anchor與Positive的距離要小於Anchor與Negative的距離並超過一個Margin Alpha。他與Contrastive loss的直觀區別由下圖所示。

（3）Metric learning的問題

上述的兩個loss function效果很不錯，而且也符合人的客觀認知，在實際項目中也有大量的應用，但該方法仍有一些不足之處。

模型訓練依賴大量的數據，擬合過程很慢。由於contrastive loss和triplet loss都是基於pair或者triplet的，需要準備大量的正負樣本，，訓練很長時間都不可能完全遍歷所有可能的樣本間組合。網上有部落格說10000人、500000張左右的亞洲數據集上花一個月才能完成擬合。
Sample方式影響模型的訓練。比如對於triplet loss來說，在訓練過程中要隨機的取樣anchor face, negative face以及positive face，好的樣本取樣能夠加快訓練速度和模型收斂，但是在隨機抽取的過程中很難做到非常好。
缺少對hard triplets的挖掘，這也是大多數模型訓練的問題。比如說在人臉識別領域中，hard negatives表示相似但不同的人，而hard positive表示同一個人但完全不同的姿態、表情等等。而對hard example進行學習和特殊處理對於提高識別模型的精度至關重要。

2. 對於Metric Learning不足進行修正的各種trick

（1）Finetune

參考論文：Deep Face Recognition

在論文《Deep Face Recognition》中，為了加快triplet loss的訓練，坐著先用softmax訓練人臉識別模型，然後移除頂層的classification layer，然後用triplet loss對模型進行特徵層finetune，在加速訓練的同時也取得了很不錯的效果。該方法也是現在訓練triplet loss時最常用的方法。

（2）對Triplet loss的修改

參考論文：In Defense of the Triplet Loss for Person Re-Identification

該作者說出了Triplet loss的缺點。對於Triplet loss訓練所需要的一個三元組，anchor(a)、positive(p)、negative(n)來說，需要從訓練集中隨機挑選。由於loss function的驅動，很有可能挑選出來的是很簡單的樣本組合，即很像的正樣本以及很不像的負樣本，而讓網路一直在簡單樣本上進行學習，會限制網路的范化能力。因此坐著修改了triplet loss並添加了新的trick，大量實驗證明，這種改進版的方法效果非常好。

在Google提供的facenet triplet loss訓練時，一旦選定B triplets集合，數據就會按照順序排好的3個一組，那麼總共的組合就有3B種，但是這些3B個影像實際上有多達種有效的triplets組合，僅僅使用3B種就很浪費。

在該片論文中，作者提出了一個TriHard loss，其核心思想是在triplet loss的基礎上加入對hard example的處理：對於每一個訓練的batch, 隨機挑選P個ID的行人，每個行人隨機挑選K張不同的圖片，即一個batch含有P×K張圖片。之後對於batch中的每一張圖片a，我們可以挑選一個最難的正樣本和一個最難的負樣本和a組成一個三元組。首先我們定義和a為相同ID的圖片集為A，剩下不同ID的圖片圖片集為B，則TriHard損失表示為：

其中是人為設定的閾值參數。TriHard loss會計算a和batch中的每一張圖片在特徵空間的歐氏距離，然後選出與a距離最遠(最不像)的正樣本p和距離最近(最像)的負樣本n來計算三元組損失。其中d表示歐式距離。損失函數的另一種寫法如下：

另外，作者在輪中也提出了幾個實驗得到的觀點：

平方後的歐式距離不如開方後的真實歐氏距離(後續會簡單提一下原因)
提出了Soft-Margin損失函數替代原始的Triplet loss表達式，soft-margin能夠使得損失函數更加平滑，避免函數收斂在bad local處，能夠一定程度上加速演算法收斂。
引進了Batch Hard Sampling

該方法考慮了hard example後效果比傳統的triplet loss好。

（3）對loss以及sample方法的修改

參考論文：Deep Metric Learning via Lifted Structured Feature Embedding

該論文首先提出了現有的三元組方法無法充分利用minibatch SGD training的training batches的優勢，創造性的將the vector of pairwise distances轉換成the matrix of pairwise distance，然後設計了一個新的結構化損失函數，取得了非常好的效果。如下圖所示，是contrastice embedding，triplet embedding以及lifted structured embedding三種方式的取樣示意圖。

直觀上看，lifted structured embedding涉及的分類模式更多，作者為了避免大量數據造成的訓練困難，作者在此基礎上給出了一個結構化的損失函數。如下圖所示。

其中P是正樣本集合，N是負樣本集合。可以看到對比上述的損失函數，該損失函數開始考慮一個樣本集合的問題。但是，並不是所有樣本對之間的negative edges都攜帶了有用的資訊，也就是說隨機取樣的樣本對之間的negative edges攜帶了非常有限的資訊，因此我們需要設計一種非隨機的取樣方法。

通過上述的結構化損失函數我們可以看到，在最終計算損失函數時，考慮了最像和最不像的hard pairs(也就是損失函數中max的用處)，也就相當於在訓練過程中添加了difficult neighbors的資訊了訓練mini-batch，通過這種方式訓練數據能夠大概率的搜尋到hard negatives和hard positives的樣本，而隨著訓練的不斷進行，對hard樣本的訓練也將實現最大化類間距離和最小化類內距離的目的。

如上圖所示，該文章在進行metric learning的時候並沒有隨機的選擇sample pairs，而是綜合了多類樣本之間較難區分者進行訓練。此外，文中還提到了以為的尋求max的過程或者尋求single hardest negative的過程會導致網路收斂到一個bad local optimum，我猜想可能是因為max的截斷效應，使得梯度比較陡峭或者梯度間斷點過多。作者進一步改進了loss function，採用了smooth upper bound，即下式所示。

（4）對sample方式和對triplet loss的進一步修改

參考論文：Sampling Matters in Deep Embedding Learning

對取樣方式的修改

文章指出hard negative樣本由於anchor的距離較小，這是如果有雜訊，那麼這種取樣方式就很容易受到雜訊的影響，從而造成訓練時的模型坍塌。FaceNet曾經提出一種semi-hard negative mining的方法，它提出的方法是讓取樣的樣本不是太hard。但是根據作者的分析認為，sample應該在樣本中進行均勻的取樣，因此最佳的取樣狀態應該是在分散均勻的負樣本中，既有hard，又有semi-hard，又有easy的樣本，因此作者提出了一種新的取樣方法Distance weighted sampling。

在現實狀態下，我們隊所有的樣本進行兩兩取樣，計算其距離，最終得到點對距離的分布有著如下的關係：

那麼根據給定的距離，通過上述函數的反函數就可以得到其取樣概率，根據該概率決定每個距離需要取樣的比例。給定一個anchor，取樣負例的概率為下式：

由於訓練樣本與訓練梯度強相關，因此作者也繪製出了取樣距離、取樣方法與數據梯度方差的關係，如下圖所示。從圖中可以看出，hard negative mining方法取樣的樣本都處於高方差的區域，如果數據集中有雜訊的話，取樣很容易受到雜訊的影響，從而導致模型坍塌。隨機取樣的樣本容易集中在低方差的區域，從而使得loss很小，但此時模型實際上並沒有訓練好。Semi-hard negative mining取樣的範圍很小，這很可能導致模型在很早的時候就收斂，loss下降很慢，但實際上此時模型也還沒訓練好；而本文提出的方法，能夠實現在整個數據集上均勻取樣。

對loss function的修改

作者在觀察constractive loss和triplet loss的時候發現一個問題，就是負樣本在非常hard的時候loss函數非常的平滑，那麼也就意味著梯度會很小，梯度小對於訓練來說就意味著非常hard的樣本不能充分訓練，網路得不到hard樣本的有效資訊，因此hard樣本的效果就會變差。所以如果在hard樣本周圍loss不是那麼平滑，也就是深度學習中經常用的導數為1(像relu一樣)，那麼hard模式會不會就解決了梯度消失的問題。另外loss function還要實現triplet loss對正負樣本的兼顧，以及具備margin設計的功能，也就是自適應不同的數據分布。損失函數如下：

我們稱anchor樣本與正例樣本之間的距離為正例對距離；稱anchor樣本與負例樣本之間的距離為負例對距離。公式中的參數beta定義了正例對距離與負例對距離之間的界限，如果正例對距離Dij大於beta，則損失加大；或者負例對距離Dij小於beta，損失加大。A控制樣本的分離間隔；當樣本為正例對時，yij為1，樣本為負例對時，yij為-1。下圖為損失函數曲線。

從上圖可以看出為什麼在非常hard的時候會出現梯度消失的情況，因為離0點近的時候藍色的線越來越平滑，梯度也就越來越小了。另外作者對的設置也進行了調優，加入了樣本偏置、類別偏置以及超參，對損失函數進一步優化，能夠根據訓練過程自動修改的值。

3. Margin Based Classification

Margin based classification不像在feature層直接計算損失的metric learning那樣對feature加直觀的強限制，是依然把人臉識別當 classification 任務進行訓練，通過對 softmax 公式的改造，間接實現了對 feature 層施加 margin 的限制，使網路最後得到的 feature 更 discriminative。

（1）Center loss

參考論文：A Discriminative Feature Learning Approach for Deep Face Recognition

ECCV 2016的這篇文章主要是提出了一個新的Loss：Center Loss，用以輔助Softmax Loss進行人臉的訓練，為了讓同一個類別壓縮在一起，最終獲取更加discriminative的features。center loss意思即為：為每一個類別提供一個類別中心，最小化min-batch中每個樣本與對應類別中心的距離，這樣就可以達到縮小類內距離的目的。下圖為最小化樣本和類別中心距離的損失函數。

為每個batch中每個樣本對應的類別中心，和特徵的維度一樣，用歐式距離作為高維流形體距離表達。因此，在softmax的基礎上，center loss的損失函數為：

個人理解Center loss就如同在損失函數中加入了聚類的功能，隨著訓練的進行，樣本自覺地聚類在每一個batch的中心，進一步實現類間差異最大化。但是我覺得，對於高維特徵，歐氏距離並不能反映聚類的距離，因此這樣簡單的聚類並不能在高維上取得更好的效果。

（2）L-Softmax

原始的Softmax的目的是使得，將向量相乘的方式變換為向量的模與角度的關係，即，在這個基礎上，L-Softmax希望可以通過增加一個正整數變數m，可以看到：

使得產生的決策邊界可以更加嚴格地約束上述不等式，讓類內的間距更加的緊湊，讓類間的間距更加有區分性。所以基於上式和softmax的公式，可以得到L-softmax的公式為：

由於cos是減函數，所以乘以m會使得內積變小，最終隨著訓練，類本身之間的距離會增大。通過控制m的大小，可以看到類內和類間距離的變化，二維圖顯示如下：

作者為了保障在反向傳播和推理過程中能夠滿足類別向量之間的角度都能夠滿足margin的過程，並保證單調遞減，因此構建了一種新的函數形式：

有人回饋L-Softmax調參難度較大，對m的調參需要反覆進行，才能達到更好的效果。

（3）Normface

參考論文：NormFace: L2 Hypersphere Embedding for Face Verification

這篇論文是一篇很有意思的文章，文章對於權重與特徵歸一化做了很多有意思的探討。文章提出，sphereface雖然好，但是它不優美。在測試階段，sphereface通過特徵間的餘弦值來衡量相似性，即以角度為相似性度量。但在訓練過程中也有一個問題，權重沒有歸一化，loss function在訓練過程中減小的同時，會使得權重的模越來越大，所以sphereface損失函數的優化方向並不是很嚴謹，其實優化的方向還有一部分去增大特徵的長度了。有部落客做實驗發現，隨著m的增大，坐標的尺度也在不斷增大，如下圖所示。

因此作者在優化的過程中，對特徵做了歸一化處理。相應的損失函數也如下所示：

其中W和f都為歸一化的特徵，兩個點積就是角度餘弦值。參數s的引入是因為數學上的性質，保證了梯度大小的合理性，原文中有比較直觀的解釋，可以閱讀原論文，並不是重點。s既可以變成可學習的參數，也可以變成超參，論文作者給了很多推薦值，可以在論文中找到。其實，FaceNet中歸一化的歐氏距離，和餘弦距離是統一的。

4. AM-softmax/CosFace

參考論文：Additive Margin Softmax for Face Verification

CosFace: Large Margin Cosine Loss for Deep Face Recognition

看上面的論文，會發現少了一個東西，那就是margin，或者說是margin的意味少了一些，所以AM-softmax在歸一化的基礎上有引入了margin。損失函數如下：

直觀上來看，-m比更小，所以損失函數值比Normface里的更大，因此有了margin的感覺。m是一個超參數，控制懲罰，當m越大，懲罰越強。該方法好的一點是容易復現，而且沒有很多調參的tricks，效果也很好。

（1）ArcFace

與 AM-softmax 相比，區別在於 Arcface 引入 margin 的方式不同，損失函數：

乍一看是不是和 AM-softmax一樣？注意 m 是在餘弦裡面。文章指出基於上式優化得到的特徵間的 boundary 更為優越，具有更強的幾何解釋。

然而這樣引入 margin 是否會有問題？仔細想 cos(θ+m) 是否一定比 cos(θ) 小？

最後我們用文章中的圖來解釋這個問題，並且也由此做一個本章 Margin-based Classification 部分的總結。

這幅圖出自於 Arcface，橫坐標為 θ 為特徵與類中心的角度，縱坐標為損失函數分子指數部分的值（不考慮 s），其值越小損失函數越大。

看了這麼多基於分類的人臉識別論文，相信你也有種感覺，大家似乎都在損失函數上做文章，或者更具體一點，大家都是在討論如何設計上圖的 Target logit-θ 曲線。

這個曲線意味著你要如何優化偏離目標的樣本，或者說，根據偏離目標的程度，要給予多大的懲罰。兩點總結：

1. 太強的約束不容易泛化。例如 Sphereface 的損失函數在 m=3 或 4 的時候能滿足類內最大距離小於類間最小距離的要求。此時損失函數值很大，即 target logits 很小。但並不意味著能泛化到訓練集以外的樣本。施加太強的約束反而會降低模型性能，且訓練不易收斂。

2. 選擇優化什麼樣的樣本很重要。Arcface 文章中指出，給予 θ∈[60° , 90°] 的樣本過多懲罰可能會導致訓練不收斂。優化 θ ∈ [30° , 60°] 的樣本可能會提高模型準確率，而過分優化 θ∈[0° , 30°] 的樣本則不會帶來明顯提升。至於更大角度的樣本，偏離目標太遠，強行優化很有可能會降低模型性能。

這也回答了上一節留下的疑問，上圖曲線 Arcface 後面是上升的，這無關緊要甚至還有好處。因為優化大角度的 hard sample 可能沒有好處。這和 FaceNet 中對於樣本選擇的 semi-hard 策略是一個道理。

Margin based classification 延伸閱讀

1. A discriminative feature learning approach for deep face recognition [14]

提出了 center loss，加權整合進原始的 softmax loss。通過維護一個歐式空間類中心，縮小類內距離，增強特徵的 discriminative power。

2. Large-margin softmax loss for convolutional neural networks [10]

Sphereface 作者的前一篇文章，未歸一化權重，在 softmax loss 中引入了 margin。裡面也涉及到 Sphereface 的訓練細節。

使用ModelArts訓練人臉模型

人臉識別演算法實現解釋

本文我們部署的人臉識別演算法模型主要包括兩部分：

第一部分為人臉檢測演算法模型，該模型將圖片中的人臉進行識別，返回人臉的位置資訊；
第二部分為人臉特徵表示演算法模型，也稱之為識別模型。這個部分將crop出的人臉影像embedding到一個固定維度大小的向量，然後利用該向量與底庫進行比對，完成人臉識別的整體流程。

如下圖所示，整體演算法實現的流程分為線下和線上兩個部分，在每次對不同的人進行識別之前首先利用訓練好的演算法生成人臉標準底庫，將底庫數據保存在modelarts上。然後在每次推理的過程中，圖片輸入會經過人臉檢測模型和人臉識別模型得到人臉特徵，然後基於該特徵在底庫中搜索相似對最高的特徵，完成人臉識別的過程。

在實現過程中，我們採用了基於Retinaface+resnet50+arcface的演算法完成人臉影像的特徵提取，其中Retinaface作為檢測模型，resnet50+arcface作為特徵提取模型。

在鏡像中，運行訓練的腳本有兩個，分別對應人臉檢測的訓練和人臉識別的訓練。

人臉檢測的訓練腳本為：

run_face_detection_train.sh

該腳本的啟動命令為

 sh run_face_detection_train.sh data_path model_output_path

其中model_output_path為模型輸出的路徑，data_path為人臉檢測訓練集的輸入路徑，輸入的圖片路徑結構如下：

 detection_train_data/
    train/
      images/
      label.txt
    val/
      images/
      label.txt
    test/
      images/
      label.txt

人臉識別的訓練腳本為：

run_face_recognition_train.sh

該腳本的啟動命令為

 sh run_face_recognition_train.sh data_path model_output_path

其中model_output_path為模型輸出的路徑，data_path為人臉檢測訓練集的輸入路徑，輸入的圖片路徑結構如下：

 recognition_train_data/
cele.idx
cele.lst
cele.rec
property

底庫生成的腳本：

run_generate_data_base.sh

該腳本的啟動命令為：

sh run_generate_data_base.sh data_path detect_model_path recognize_model_path db_output_path

其中data_path為底庫輸入路徑，detect_model_path為檢測模型輸入路徑，recognize_model_path為識別模型輸入路徑，db_output_path為底庫輸出路徑。

底庫生成的腳本：

run_face_recognition.sh

該腳本的啟動命令為：

sh run_generate_data_base.sh data_path db_path detect_model_path recognize_model_path

其中data_path為測試圖片輸入路徑，db_path為底庫路徑，detect_model_path為檢測模型的輸入路徑，recognize_model_path為識別模型的輸入路徑

訓練過程

華為雲ModelArts有訓練作業的功能，可以用來作模型訓練以及對模型訓練的參數和版本進行管理。這個功能對於多版本迭代開發的開發者有一定的幫助。訓練作業中有預置的一些鏡像和演算法，當前對於常用的框架均有預置鏡像（包括Caffe, MXNet, Pytorch, TensorFlow ）和華為自己的昇騰晶片的引擎鏡像（Ascend-Powered-Engine）。

本文我們會基於ModelArts的自定義鏡像特性，上傳自己在本機調試完畢的完整鏡像，利用華為雲的GPU資源訓練模型。

我們是想在華為雲上的ModelArts基於網站上常見的明星的數據訓練完成一個人臉識別模型。在這個過程中，由於人臉識別網路是工程師自己設計的網路結構，所以需要通過自定義鏡像進行上傳。所以整個人臉訓練的過程分為以下九步：

構建本地Docker環境
從華為雲下載基礎鏡像
根據自己需求構建自定義鏡像環境
導入訓練數據到自定義鏡像
導入人臉識別底庫到自定義鏡像
導入預訓練模型到自定義鏡像
上傳自定義鏡像到SWR
使用華為雲訓練作業進行訓練
使用華為雲進行推理工作

構建本地Docker環境

Docker環境可以在本地電腦進行構建，也可以在華為雲上購買一台彈性雲伺服器進行Docker環境構建。全過程參考Docker官方的文檔進行：

//docs.docker.com/engine/install/binaries/#install-static-binaries

從華為雲下載基礎鏡像

官網說明網址：

//support.huaweicloud.com/engineers-modelarts/modelarts_23_0085.html#modelarts_23_0085__section19397101102

我們訓練需要使用到的是MXNet的環境，首先需要從華為雲上下載相對應的自定義鏡像的基礎鏡像。官網給出的下載命令如下：

在訓練作業基礎鏡像的規範里，找到了這個命令的解釋。

//support.huaweicloud.com/engineers-modelarts/modelarts_23_0217.html

根據我們的腳本要求，我使用的是cuda9的鏡像：

官方還給出了另一種方法，就是使用docker file的。基礎鏡像的dockerfile也是在訓練作業基礎鏡像的規範里找到的。可以參考一下的dockerfile：

//github.com/huaweicloud/ModelArts-Lab/tree/master/docs/custom_image/custom_base

根據自己需求構建自定義鏡像環境

由於比較懶，所以還是沒有使用Dockerfile的方式自己構建鏡像。我採用的是另一種方式！

因為我們的需求就是cuda 9 還有一些相關的python依賴包，假設官方的鏡像提供的是cuda 9的，我們大可以在訓練腳本中跟著這個教程加一個requirement.txt。簡單高效快捷就能解決需求！！！下面是教程~~~

//support.huaweicloud.com/modelarts_faq/modelarts_05_0063.html

上傳自定義鏡像到SWR

官網教程：

上傳鏡像的頁面寫著，文件解壓後不得超過2GB。但是官方提供的基礎鏡像就3.11GB，我們加上需要的預訓練的模型後鏡像是5+GB，所以不能使用頁面進行上傳的工作，必須使用客戶端。上傳鏡像首先要創建組織，

如果覺得產品文檔理解還是比較難，可以嘗試一下SWR頁面的pull/push鏡像體驗：

這裡後面引導了客戶如何將本地鏡像推上雲端，第一步是登陸倉庫：

第二步拉取鏡像，這個我們就用自己打的自定義鏡像代替，

第三步修改組織，使用根據產品文檔創建的組織名。在這一步需要將本地的一個鏡像重命名為雲上識別的鏡像命。具體看下圖解釋：

第四步推送鏡像，

當熟練掌握這四步技巧的時候，可以脫離這個教程，使用客戶端進行上傳。使用客戶端登陸然後上傳。客戶端登陸可以使用生成臨時docker loging指令。這個頁面在」我的鏡像「-> 」客戶端上傳「->」生成臨時docker login指令「中：

在本地docker環境中，使用這個生成的臨時docker login指令登陸後，使用下面的命令進行上傳鏡像：

使用華為雲訓練作業進行訓練

華為雲ModelArts提供訓練作業給用戶進行模型訓練。在訓練作業中有預置鏡像和可以選擇自定義鏡像。預置的鏡像包含市面上大部分框架，沒有特殊要求的時候，使用這些框架的鏡像進行訓練也是很方便的。本次測試還是使用的自定義鏡像。

自定義鏡像中不僅需要在鏡像中進行配置自己的環境，假如改變了訓練作業啟動的方式，還需要修改訓練的啟動腳本。從華為雲ModelArts官網拉取下來的官方鏡像的/home/work/路徑下有一個啟動腳本」run_train.sh」，自定義的啟動腳本需要基於這個腳本進行修改。主要是要注意「dls_get_app」，這個是從OBS下載相關的命令。其他的部分根據自己的訓練腳本進行修改。

如果需要上傳訓練結果或者模型到OBS，需要參考」dls_get_app」加」dls_upload_model」的命令。在我們這次訓練中，上傳的腳本如下：

訓練作業進行調試的時候，當前可以使用免費提供的一小時V100。ModelArts的訓練作業一個比較好的地方是方便了我們版本管理。版本中會記錄所有通過運行參數傳入到訓練腳本里的所有參數，還可以使用版本對比進行參數對比。還有個比較方便的地方是可以基於某一個版本進行修改，減少了重新輸入所有參數這一步驟，比較方便調試。

在訓練作業中訓練完成後，還可以在ModelArts中進行模型部署上線。

後記

目前針對人臉識別演算法的優化已經到達一個瓶頸期，但是在技術層面針對人臉面部結構的相似性、人臉的姿態、年齡變化、複雜環境的光照變化、人臉的飾物遮擋等還面臨這很多的問題，因此基於多種演算法技術的融合解決人臉識別中的各種問題仍然在安防、互聯網中有著巨大的市場。另外，隨著人臉支付的逐漸完善，人臉識別系統也應用於銀行、公安系統、商場等等，因此人臉識別的安全問題和防攻擊問題也是一個亟待解決的問題，例如活體檢測、3D面部識別等等。

最後，人臉識別作為目前深度學習中應用比較成熟的項目，其發展還與深度學習本身技術發展息息相關，目前在很多優化上，深度學習最大的缺點是沒有相應的數學理論支撐，優化所提升的性能也很有限，因此對深度學習演算法本身的研究也是未來的重點。

點擊關注，第一時間了解華為雲新鮮技術~

Tags: ModelArts 人臉識別華為雲新鮮技術分享模型訓練深度學習演算法