論文閱讀——FingerNet: An Unified Deep Network for Fingerprint Minutiae Extraction

  • 2020 年 8 月 17 日
  • AI
一、摘要

指紋細節點(minutiae)特徵的提取對於自動指紋識別系統至關重要。當前主流的細節點提取演算法大都針對rolled/slap指紋影像設計,在對潛指紋進行預測時往往效果不佳,這是由於潛指紋往往包含複雜的背景雜訊而難以提取清晰的嵴與峪等特徵。

本文提出一種新的神經網路設計方法,將指紋領域先驗知識與神經網路的強大表達能力相結合。對於細節點提取流程中的ROI分割、方向場估計、影像增強及特徵提取等各個環節,本文均將其使用的傳統方法(在rolled影像中表現較好的)用神經網路的形式實現,並證明該流程等效於一系列參數固定的淺層神經網路。接著本文在保證各模組可微的前提下對該淺層網路進行擴展,並用固定的參數值進行網路的權重初始化,以從潛指紋數據中學習複雜的背景變化。

在NIST SD27潛指紋資料庫和FVC 2004註冊slap指紋資料庫上面的實驗結果表明該方法比當下SOTA細節點提取演算法性能更好。

二、方法

Basic idea:
將傳統人工訂製的指紋影像特徵(稱為domain knowledge)與深度神經網路的表達能力相結合。作者將傳統細節點提取流程中幾個模組的演算法逐一用神經網路中的卷積及乘加運算(相當於權值固定的淺層網路)來實現,然後將各個模組進一步擴展,並以上述固定權重為初始值參與擴展後網路的初始化,進行端到端的模型訓練。

作者認為這種方法訓練出來的模型,效果至少不會比初始淺層神經網路(等效於由一系列傳統演算法組成的minutiae提取流程)性能差。

FingerNet結構

其他值得注意的idea:

  1. 使用多個可靠程度不同的”偽標籤”,在訓練中分配不同loss權重:
    • 對於ROI segmentation和Orientation estimation兩個模組,潛指紋數據集中往往沒有現成的ROI和orientation label。
    • 使用將潛指紋與對應同一個手指的rolled/slap影像進行對齊,然後將rolled/slap影像的orientation作為潛指紋的”weak orientation label”
    • 利用潛指紋的minutiae標籤,找出其組成的凸包,利用形態學操作進行膨脹、平滑之後的結果作為”weak segmentation label”
    • 由於minutiae的方向往往和其周圍ridge orientation一致,故對潛指紋影像的minutiae手動標記出方向,作為”strong orientation label”
  2. 對網路得到的segmentation score map,一方面與GT map求像素分類loss;另一方面為了平滑分割的邊緣,將其拉普拉斯濾波之後的平均響應(濾波得到的邊緣影像均值越大,代表score map邊緣越不平滑?)作為smooth loss,和分類loss一起構成seg loss。參考下面程式碼段
  3. 回歸角度時用discrete bin classification的方法提高魯棒性。
  4. 在像素級分割任務中,為了解決前景、背景像素的unbalance問題,使用加權交叉熵損失
Seg loss

Weighted Cross Entropy in segmentation
三、評價:
  1. 本文介紹了一種比較直接的將傳統演算法流程轉換為端到端神經網路的方法,很好地實現了將domain knowledge集成到神經網路的設計中。
  2. 本文作者對指紋特徵提取及傳統影像處理演算法非常熟悉。第二部分閱讀難度比較大,目前2.1.2中的公式、2.1.4中Gabor filter-based enhancement並不理解。
其他筆記

術語:
傳統的指紋分割演算法使用的handcrafted特徵:

  • Gradient coherence(梯度連貫性)
    The coherence gives a measure how well the gradients are pointing in the same direction.
    Since a fingerprint mainly consists of parallel line structures, the coherence will be considerably higher in the foreground than in the background.

    Gradient coherence
  • Local Mean
    The mean gray value in the foreground is in general lower, i.e. darker gray, than it is in the background

    Local mean
  • Local Variance
    The variance of the ridge-valley structures in the foreground is higher than the variance of the noise in the background

    Local variance

作者在某個數據集上面統計了前景和背景區域的這三種特徵的分布,可以看出三種特徵對於前景和背景具有明顯區分性。

三種特徵對於前景、背景的判別性

然後在1995年這篇論文中,作者利用這三種pixel feature直接訓練一個pixel level linear classifier:
v=w^Tx=w_0Coh+w_1Mean+w_2Var+w_3
然後分割時對每個pixel apply這個classifier。[Coh Mean Var 1]^T可以看做分類所使用的特徵向量x

FingerNet中作者將該線性分類器轉換為一個淺層神經網路:

將handcraft特徵轉化為shallow network
  • 注意:上面的公式中J_w前的星號代表卷積操作