CVPR 2019 | 一種用於年齡估計的連續感知概率網絡
- 2019 年 11 月 26 日
- 筆記
年齡估計是計算機視覺中一個重要且具有挑戰性的問題。現有的年齡估計方法通常採用分治法來解決非平穩老化引起的異構數據。然而,面部衰老過程也是一個連續過程,不同年齡之間的連續關係還沒有得到有效的挖掘。在這篇文章中,作者提出了一種稱為BridgeNet的模型進行年齡估計,能夠有效地挖掘年齡標籤之間的連續關係。
年齡估計嘗試根據面部圖像預測實際年齡值或年齡組,這是計算機視覺中的一項重要任務,廣泛應用於各個場景如視覺監控,人機交互,社交媒體和人臉檢索等。儘管已經對該問題進行了多年的廣泛研究,但從單張圖像中估算出人的年齡仍非常困難。
通過將年齡標籤視為數值,可以將年齡估計轉換為回歸問題。然而,人的面部在不同的年齡以不同的方式成熟,例如,兒童時期的骨骼生長和成年時期的皮膚皺紋。這種非平穩的老化過程意味着年齡估算的數據是異構的。因此,許多非線性回歸方法不可避免地會受到異構數據的影響,並且它們很容易過擬合。
為了解決這一問題,人們做出了很多努力。分治法被證明是解決異構數據的一個較好策略,它將數據空間劃分成多個子空間。Huang等利用本地回歸器學習均勻的數據區分。一些基於排名的方法將回歸問題轉化為一系列的二元分類子問題。
另一方面,面部衰老也是一個連續的過程。也就是說,人臉隨着年齡的增長而逐漸變化,但這種連續的過程導致相鄰年齡的面孔外觀非常相似,例如一個人在31歲和32歲的時候,臉部幾乎是一樣的。

Figure 1
Figure1展示了更多的例子。這種由連續性引起的相似關係在相鄰年齡段起着主導作用。考慮到我們按年齡劃分數據,在相鄰的局部回歸子問題或相鄰的二元分類子問題中也會發現同樣的現象。然而這種關係在現有的方法中沒有被利用。

由清華、華為等單位的幾位研究人員發表在今年CVPR上的一篇文章提出了一個被稱為BridgeNet的可感知連續性概率網絡,來解決上述挑戰。
BridgeNet由本地回歸器和門控網絡組成。本地回歸器對數據空間進行劃分,門控網絡提供了連續感知的權重。回歸結果的加權組合給出了最終的準確估計。
BridgeNet有很多優點:
首先,作為分治法的一種,本地回歸器將異構數據進行顯式建模。
第二,門控網絡具有橋樹結構,該結構是通過將橋連接引入到樹中來增強相鄰節點的相似性。因此,門控網絡可以感知本地回歸器之間的連續性。
第三,BridgeNet的門控網絡使用概率性軟決策而不是硬決策,因此本地回歸變量可以給出精確而可靠的估計。
第四,可以聯合訓練本地回歸器和門控網絡,並將BridgeNet與任何深度神經網絡輕鬆集成到端到端模型中。
相關工作
年齡估計
現有的年齡估計方法大致可以分為基於分類,回歸,排名三種方法。
基於回歸的方法將年齡看成數值,使用一些如SVR,PLS等回歸器來做,但這種方法難以處理異構數據。基於分類的方法通常會將不同年齡或年齡組作為獨立的階段標籤。因此,任何類型的分類錯誤的代價都是相同的,無法利用年齡標籤之間的關係。
最近,一些研究者利用排名技術來解決該問題。這些方法通常利用一系列簡單的二元分類器來確定輸入人臉圖像的年齡等級。但是,在基於排名的方法中,二元問題之間的關係被忽略了,並且有序回歸僅限於標量輸出。
隨機深林
隨機深林是機器學習和計算機視覺領域中廣泛使用的分類器。它的有效性已經在如姿態估計,圖像分類等多種任務中得到證明。同時卷積神經網絡展示了特徵學習的卓越性能。所以有人提出了深度神經決策深林(dDNFs)來組合這兩者。每個神經決策樹都包含了分裂節點和葉節點。每個分裂點以概率的形式決定分裂方向,葉子節點存儲類標籤。dDNFs是可微的,並且可以使用兩步優化策略來交替學習分裂節點和葉子節點。已經有一些方法利用dDNFs做年齡估計。
方法
1、框架總覽
作者提出的方法的流程圖如Fig2所示。

Figure 2

2、本地回歸器
作為一種分而治之的方法,本地回歸器可以有效的對異構數據進行建模。本地回歸器將數據空間劃分成多個子空間,並且每個本地回歸器僅對一個子空間進行回歸。
我們可以將本地回歸器看成多位專家。每個專家都在一個很小的回歸區域中擁有豐富的經驗,並且不同的專家涵蓋了不同的回歸區域。因此,即使是異構數據,專家組也可以給出理想的結果。這裡,我們將數據按年齡標籤進行劃分,然後為每個回歸變量分配一個年齡組中的數據。為了進一步模擬年齡標籤的連續性,我們讓本地回歸器的回歸區域密集重疊。相鄰的本地回歸器在其負責的區域中有很高的重疊度,這使它們具有很高的相似性。因此,對於任何值,都有多個回歸器負責對其進行回歸,這使我們可以採用集成學習來使得結果更準確。
3、門控網絡
橋連接
本地回歸器的設計遵循着分而治之的原則。在這裡,門控網絡被用來決定本地回歸器的權重。
樹結構是一種使用分治法則的被廣泛使用的層次結構。例如決策樹是機器學習和計算機視覺中廣泛使用的分類器,其樹結構具有從粗到細的決策生成過程。
另一方面,由於年齡變化過程是連續的,本地回歸器之間存在連續性關係,密集重疊的本地回歸器設計進一步加強了這種關係。


Figure 3
作者在樹模型中引入橋連接增強相鄰節點之間的相似性。對於同一層上的兩個相鄰節點,左節點的最後子節點和右節點的最左子節點被合併成一個節點。
作者將這個操作稱為網橋連接,因為它像橋一樣連接了兩個遠離的節點。合併點(在此稱為橋接節點)在左節點的子節點和右節點的子節點之間傳遞信息方面發揮作用。通過將此操作逐層應用於樹模型,可以獲得名為bridge-tree的連續感知結構。
Figure3(a)展示了如何將橋連接應用於4層二叉樹來獲得4層二叉橋樹。我們在4層二叉橋樹中看到,節點o2的最右邊的子節點和節點o3最左邊的子節點被合併到節點o5中。橋節點o5是節點o2的子節點和節點o3的子節點之間的信息通信橋。相同的操作被用到二叉樹節點l2和l3,l6和l7中。因為二叉樹中的節點o5和o6已經被合併到一個節點中,所以二叉樹中的節點l4和l5被截斷了。
此外,可以將橋連接應用於多元樹以獲得多元樹橋。Figure3(b)給出了構建三元樹橋的例子。值得注意的是,三元樹橋的節點增長率與二叉樹的增長率非常接近。
門控函數
我們再來描述如何使用橋樹結構的門控網絡來控制生成連續感知的門控函數。

作者在門控網絡和橋樹邊上的概率值之間建立了一對一的關係,也就是說,每個門控網絡都對應於位於橋樹邊上的概率值。然後可以用上述遞歸的方式使用門控網絡計算葉子節點的門控函數。
4、實現細節


Figure 4

實 驗
下面的Table1和Table2展示了BridgeNet在MORPH II,FG-NET數據集上的準確測試數據。


可以看到 BridgeNet在這兩個數據及上均取得了SOAT成果。另外,在Chalearn LAP 2015,IMDB-WIKI數據集上同樣也取得了SOAT成果。作者還在實驗部分給出了使用不同的Backbone和超參數如對模型性能的影響。另外作者還實驗了橋樹的深度,節點個數等對模型性能的影響。結果如Table4,5所示:


結 論
在本文中,作者介紹了BridgeNet,這是一種用於年齡估計的連續性概率網絡。 BridgeNet使用具有橋樹結構的概率網絡,顯式地對由本地回歸器構造的不同組件之間的連續性關係進行建模。
在三個數據集上進行的實驗表明,這種方法比其他最新方法更準確。此外,儘管這種方法專為年齡估算而設計,但也可以用於其他基於回歸的計算機視覺任務。作者在論文中提到,在未來的工作中他們計劃研究BridgeNet在人群計數,姿勢估計和其他基於回歸的任務中的有效性。