尋找走失多年的兒童,這個算法讓父母看到孩子長大的模樣
- 2019 年 12 月 25 日
- 筆記
選自arXiv
作者:Debayan Deb等
機器之心編譯
參與:魔王、杜偉
尋找失蹤兒童何其難!小孩失蹤時還很小,找到卻可能已過了數年甚至十幾年。如何判斷找回人員的身份,讓他們回家?這是亟待解決的難題。
近日,密歇根州立大學的研究者提出一個「增齡」模塊,將失蹤兒童原始圖像中的深度人臉特徵「老化」(或者說「增齡」),從而幫助匹配原來的圖像和數年後的圖像。

論文鏈接:https://arxiv.org/pdf/1911.07538.pdf
引言
人口販賣是世界各國普遍面臨的一項嚴重社會問題。根據聯合國兒童基金會(UNICEF)和機構間打擊販運人口協調小組(ICAT)的數據,全球被販賣人口中兒童比例高達 28%。據 2012 年《華爾街日報》報道,每年全球範圍內約有 800 萬兒童失蹤。與父母分離的兒童,如難民和移民,最易被販賣。
截至 2018 年,18 歲以下青少年佔美國 NCIC 報告中登記在案失蹤人口的 34.8%。而失蹤兒童的實際數量要遠遠高於官方統計數據:出於對人口販賣者的恐懼、缺少信息、對當局缺乏信任等原因,上報的兒童失蹤案件少於實際情況。
人臉識別可能是找回失蹤兒童任務中最有前景的生物識別技術,因為失蹤兒童的父母親屬擁有其人臉照片的概率遠高於其他生物模態,如指紋或虹膜信息。而自動人臉識別(Automated Face Recognition,AFR)系統已經能夠達到很高的識別率,它們可在兒童年齡增長有限的情況下識別兒童。
人臉會隨着時間發生很多變化,如皮膚紋理、重量、面部毛髮等(見下圖 1)。

圖 1:Dakota Fanning(第一行)和 David Gallagher(第二行)的不同年齡照片。
多項研究分析了人臉隨時間的變化對 AFR 性能的影響,見下表 2:

這些研究得出了兩個重要結論:
- 隨着後續圖像與原始圖像的時間間隔變長,系統識別人臉的性能下降;
- 相較於年齡較大的人,AFR 系統對年齡較小的個體性能下降更加迅速。
下圖 3 展示了,當前最優人臉匹配器在匹配失蹤兒童圖像和較長時間間隔後的圖像時失敗率較高。因此,增強 AFR 系統的縱向性能非常必要,尤其是對於在年齡較小時失蹤的孩童。

圖 3:rank-1 識別準確率(%)熱圖。a 未使用本研究提出的模塊修改 FaceNet 特徵,而 b 利用提出模塊修改了 FaceNet 特徵(顏色越深表示準確率越高)。圖中橫軸表示兒童年齡時間差,縱軸表示失蹤兒童圖像中的年齡。
定位失蹤兒童類似於人臉識別中的識別(開集或閉集),我們從失蹤兒童照片庫中進行搜索,以確定找回的較大年齡孩童的身份。找回孩童照片與失蹤孩童照片之間時間間隔越長,搜索任務就越難。之前對年齡變化下的人臉識別(包括成年人和孩童)的研究主要探索了生成和判別式模型。但是,當前最優人臉識別系統仍然難以確定在較大年齡找回的孩童的身份。
該研究提出「增齡」模塊,它學習特徵空間中的投影,並可作為任意現有人臉匹配器的 wrapper。該模塊還能夠基於個體年齡和指定目標年齡合成增齡後特徵所對應的人臉圖像。
對於時間間隔大於 10 年的情況(即失蹤兒童在 10 年或更久之後才被找到),該研究提出的增齡模塊將 FaceNet 在閉集上的識別準確率從 40% 增加到 49.56%,將 CosFace 在童星數據集 ITWCC 上的識別準確率從 56.88% 提升到 61.25%。該方法在公開增齡數據集 FG-NET 上的 rank-1 識別率超越當前最優方法,實現了從 94.91% 到 95.91% 的提升,該方法在 CACD-VS 數據集上同樣超越了 SOTA 方法,將識別率從 99.50% 提升到 99.58%。這些結果表明,使人臉特徵「增齡」能夠增強識別找回兒童是否為販賣誘拐受害者的幾率。
使深度人臉特徵「增齡」
直接操縱人臉圖像中的像素可能無法在特徵空間中保留兒童的身份信息。因此,該研究提出一種增齡模塊,學習低維特徵空間中的深度特徵投影,從而直接改進人臉識別系統識別較長時間間隔兒童圖像的準確率(見下圖 6)。

圖 6:該研究提出的深度特徵增齡方法圖示。該增齡模塊可以將人臉特徵向量增加到任意指定年齡。
激活
為了分析「增齡」對兒童人臉匹配性能的影響,我們令 S = {S^t}^T_t=0,T 是數據集中所有可能年齡的集合。這裡,

,其中 S^t 是數據集中年齡為 t 的所有失蹤兒童圖像的集合(共 N_t 張)。使用現有的人臉匹配器(如 FaceNet),我們可以提取出圖像 x^t_i 的深度特徵表示 φ(x^t_i )。
研究者首先計算 S 中所有年齡的平均人臉表示。對於年齡 t,其平均人臉特徵可表示為:

研究者從 UTKFace 數據集中抽取平均人臉特徵

。為了分離年齡變化引起的人臉嵌入區別,研究者將一個屬性向量定義為在年齡為 t_1 和 t_2 時,任意兩個平均人臉特徵的區別

其中 t_1 << t_2。與深度特徵內插類似,研究者將年齡 t_1 的兒童人臉圖像 x^t1_i 映射至特徵空間中的點 φ(x^t1_i),並通過

將其沿着屬性向量 ¯δ^t1,t2 線性移動。
下圖 4 展示了 5 歲和 12 歲孩童人臉特徵的解碼圖像樣本,它們沿着流形 (α = 1) 線性移動。

這個實驗表明:
- 人臉嵌入可捕捉到增齡所需的年齡信息;
- 增齡可以通過在特徵空間中執行線性內插來實現。
學習特徵增齡
完美的人臉特徵空間 Z 應該僅編碼身份顯著特徵(identity-salient feature),年齡相關組件應與身份相關特徵分離。但事實上,人臉匹配器自然而然地在潛在空間中編碼年齡相關信息,以增強判別能力。該研究旨在開發一種增齡方法,能夠在任意人臉匹配器的特徵空間中學習投影(見下圖 5)。

預訓練人臉匹配器將人臉圖像 x 嵌入 d 維歐幾里得空間 φ(x) ∈ R^d 中。假設有圖像對 (x^t_1_i , x^t_2_j ) 組成的訓練集,其中 x_i 和 x_j 分別是同一個人在年齡為 t_1 和 t_2 時的照片。此處,x_i ∈ X,t_a ∈ A,X 是人臉圖像域,A 是所有可能年齡的集合。研究者想要學習一個模型,該模型以人臉特徵向量 φ^t_1 為輸入,為期望年齡 t_2 合成人臉嵌入,從而在年齡相關組件與 φ^t_2 類似的條件下,保留個體身份信息。
該研究提出一種編碼器-解碼器架構,可在特徵空間中自動學習增齡。編碼器 E : (R^d , A, A) → R^k 是一組全連接線性層的堆疊,它們可將特徵向量映射至 k 維潛在表示 E(φ(x^t1), t_1, t_2)。編碼器基於輸入特徵 φ(x^t_1)、原始圖像拍攝時的年齡 t_1 和增齡後的期望年齡 t_2。解碼器 D : R^k → R^d 也是一組全連接線性層的堆疊,它們基於原始人臉特徵 φ(x^t_1) 的潛在表示 E(φ(x^t_1 ), t_1, t_2) 將其合成為增齡版本。為了確保保存身份顯著特徵和年齡增加到期望年齡的合成特徵,研究者使用均方差 (MSE) 損失來訓練增齡模塊:

其中 P 是所有原始對的集合。模型訓練完成後,增齡模塊可以將人臉特徵推進至期望年齡。
實驗
為評估模型對兒童人臉圖像的性能,研究者使用了兩個數據集(見下表 1):

其中,Children』s Face Aging (CFA) 數據集包含年齡範圍為 2 − 20 歲的 9,196 名青少年兒童每年的入學照,共計 25,180 張。
In The Wild Child Celebrity (ITWCC) 數據集包含 745 個童星的 7,990 張圖像。
下表 3 展示了所有方法的平均差和標準差:

從上表中可以看出,該增齡方法能夠提高 FaceNet 和 CosFace 的搜索準確率。此外,在特徵增齡模塊的幫助下,開源人臉匹配器 CosFace 的性能超過了 COTS。
下圖 8a 和 8b 展示了模型在兒童和成年人圖像上的性能。該研究提出的模型能夠改進模型對所有存在間間隔的人臉圖像進行匹配,而當時間間隔增大時其貢獻尤甚。

下圖 11 展示了在不使用該研究提出的深度特徵增齡模塊時,CosFace 從所有圖像中檢索到了錯誤的兒童。

為了評估增齡模塊的泛化性能,研究者在 CFA 和 ITWCC 數據集上進行訓練,並在公開可用增齡數據集 FG-NET 上進行性能基準測試。研究者按照標準的留一法進行操作,結果見下表 4。
實驗表明,該研究提出的特徵增齡模塊可以提升 CosFace 的性能。研究者還在相同的訓練集上微調了 CosFace 的最後一層,但是準確率下降明確表明,移動到新的潛在空間可以展示出原始特徵。該增齡模塊可以提升模型性能,同時仍然在原始匹配器運行的相同特徵空間中。

此外,研究者還在成年人增齡數據集 CACD-VS13 上進行了性能基準測試。但是,與之前的研究 [28, 31, 4] 不同,研究者並未在 CACD-VS 數據集上微調模型。
下表 5 展示了,該研究提出的特徵增齡模塊提升了 CosFace 在 CACD-VS 數據集上的性能,這表明該模型對成年人增齡後的人臉識別也有作用。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。