奧特曼、小豬佩奇、海賊王…AI人臉識別終於對他們下手了!

1.png編輯 | 陳大鑫

奧特曼真粉大挑戰!

挑戰1:請問上圖中的奧特曼從左往右分別是?

這還不簡單?——艾斯、傑克、奧特曼(初代)、賽文、泰羅。

不錯不錯,再來一次~

挑戰2:請問下圖中的奧特曼分別是?

2.png

啊這?
3.png
如果這些奧特曼全部都看過一遍,識別起來好像也不是很難?
那麼對AI來說呢?
AI人臉識別這件事,大家早已司空見慣,而豬臉識別似乎也不會令人增加保護欲。
4.png
那麼如果是下面這些愛踩泥坑的豬呢?
5.png
會不會都識別成吹風機?
6.png
下面的佩奇和路飛在不同的視角、光照、遮擋等環境下能不能被AI識別出來?
7.png
為了回答這件事情,作為小豬佩奇和海賊王的播放平台愛奇藝下定決心:
——首先給AI充個「會員」!
這裡的會員指的是iCartoonFace:一個卡通人臉識別的基準數據集,愛奇藝與此同時設計了卡通和真人多任務域自適應策略來提高卡通人臉識別的性能。
這些數據集的相關成果已經發表成論文並被ACM MM2020接收。

8.png

論文鏈接://arxiv.org/pdf/1907.13394.pdf

1

論文背景

近年來,伴隨著卡通產業的迅猛發展,卡通影片呈現出爆炸性增長。而實現對這些卡通影片智慧理解的第一步就是需要識別出這些影片裡面的卡通人物身份資訊。
同時伴隨著人臉識別技術的發展,人物識別精度大幅提升,在Labeled Faces in the Wild(LFW)等圖片數據集上,人臉識別精度甚至超過了人類的識別能力。
然而,對卡通人物身份的識別,卻鮮有研究,相關的數據集也比較少,如下表1。對於深度學習來說,這些已有的卡通識別數據集存在著數據量較小、雜訊比例較大的問題。因此構建一個大規模、高品質的卡通識別數據集,並對卡通人物身份資訊進行識別,則至關重要。
9.png
表1 卡通人物識別相關數據集對比

2

iCartoonFace數據集:

1、數據集構建
為了減輕標註人工的工作量,我們設計了一種半自動數據集構建框架來得到iCartoonFace數據集,如下圖1。
我們的框架可以分為以下三個階段:

  • 分層數據收集:從卡通專輯到卡通人物名稱,再到卡通人物圖片依次獲取。
  • 數據過濾過程:利用卡通人臉檢測、特徵提取器、特徵聚類等進行雜訊數據過濾,其中特徵提取器隨著標註數據的增多而性能不斷增強。
  • Q/A問答:標註人員根據特徵聚類的結果,回答鳴人和超人的不同。

10.png圖1 半自動數據集構建框架
2、數據集統計資訊
iCartoonFace識別數據集是一個大規模、高品質的卡通人物身份識別數據集,如圖2所示,iCartoonFace識別數據集的統計特性如下:
大規模:iCartoonFace識別數據集包含5013個卡通人物、389,678張圖片,來源於1,302卡通專輯,是已知目前最大的手工標註卡通人物身份識別數據集。
高品質:數據集手工標註完成之後,我們採用交叉驗證的方式保證數據集標註錯誤率在5%以內。所有圖片的解析度高於100×100,超過65%的圖片解析度高於200×200。
多樣性和挑戰性:從圖3可以看到,不同的卡通人物具有非常相近的外形特徵,同一個的卡通人物由於的表情、遮擋、角度等影響導致外形具有非常大的差異性。
11.png圖2 iCartoonFace識別數據集統計資訊
3、數據集挑戰性
給定一張Probe集中的照片和至少包含一張相同卡通人物身份圖片的Gallery集,演算法需要根據與給定圖片中卡通人物身份相似度對Gallery集中所有圖片進行排序。
具體來說,Probe集中包含N個卡通人物、每個卡通人物有M張照片。對於每個卡通人物的M張照片,每次選取一張圖片作為probe照片,然後把剩餘的M-1張,再單獨每一張和distractors一起組成Gallery集,然後進行比對,然後計算rank1精度。經過N*M*(M-1)次比對後,得到的平均rank1精度作為本次任務的評價指標。
在iCartoonFace卡通識別數據集中,有四類代表性的挑戰,如圖3所示:
a)類間相似度高:來自不同人物ID的兩張圖片外觀看起來非常相似;
b) 視角變化:同一個人物有不同角度的圖片;
c) 遮擋問題:人物面部會受到場景中其他對象的遮擋;
d) 光線變化:所有的這些識別問題中遇到的問題,都需要我們的識別演算法具有足夠的魯棒性。

12.png

圖3  iCartoonFace卡通識別數據集代表性的挑戰

3

方法

我們提出了卡通和真人多人物訓練框架如下圖4所示,主要分為分類損失函數、未知身份拒絕損失函數和域遷移損失函數。

13.png

圖4 卡通和真人多任務訓練框架

分類損失函數:主要用來對卡通臉和真人臉進行分類,典型的表達式如下:
14.png
14_2.png
未知身份拒絕損失函數:在不同域之間進行無監督正則化投影,表達式如下:
15.png
域遷移損失函數:用來減低卡通和真人域之間的差異性,對他們的相關性進行約束,表達式如下:
16.png
4

實驗

1、哪種演算法更適合卡通識別?
我們比較了SoftMax、SphereFace、CosFace、ArcFace、ArcFace+FL幾種演算法的性能如下圖5所示。結果表明,ArcFace+FL的性能相比其他演算法無論是在低Rank還是高Rank下都更優。

17.png

圖5 五種演算法的CMC曲線圖

2、人臉識別的資訊是否有助於卡通識別?
我們測試了對於卡通檢測和卡通識別兩個任務,人臉資訊是否對卡通的檢測識別有幫助。
從表2可以發現,與F-ArcFace(即ArcFace+FL)相比,本文提出的方法的人臉識別性能將略有提高,圖6同樣驗證了加入人臉識別的數據後卡通檢測的性能也能得到提高。

18.png

圖6 卡通檢測兩種演算法的PR曲線

19.png

表2 演算法的性能對照表

3、對於卡通識別來說上下文資訊是否有用?
卡通臉是識別一個卡通人物身份的最主要區別部分。然而,在某些情況下僅僅依靠卡通人臉不足以區分不同的卡通人物。
我們測試了演算法在卡通人臉基礎上擴充不同比例下的性能如圖7所示,圖中表示了在包含更多的上下文資訊下會獲得更高的識別性能。

20.png

圖7 在不同擴充比例下的CMC曲線


5

總結展望

愛奇藝開放了目前全球最大的手工標註卡通人物檢測數據集與識別數據集iCartoonFace,包含超過5000個卡通人物、40萬張以上高品質實景圖片,這使得對卡通人臉識別技術的研究擁有了強有力的數據土壤。
針對卡通人物的特性進行更加深入的模型優化研究,設計卡通真人多任務學習框架,可以有效地提高卡通人物識別性能。未來,加深對卡通人物識別能力的研究,設計更加魯棒性的演算法,從而可以處理遮擋、側臉、模糊、變身等多種情況,使得識別的人數更多、可識別的樣式更豐富,是一個非常有挑戰性的問題。
對卡通人物進行識別具有廣泛的應用場景,不僅可以用於影片理解對影片進行結構化分析,還可以在智慧剪輯創作、圖片搜索、人物審核、廣告等場景中得到廣泛應用。例如圖片搜索中加入卡通人物身份特徵,使得搜索更加準確,通過分析影片中卡通人物的身份點位,可以提供給創作者進行智慧剪輯,也可以用來對惡搞的諷刺漫畫或者卡通風格人物進行審核辨識。
通過人臉識別技術對影片中的人物資訊進行結構化分析,目前已在愛奇藝公司的多個產品中應用,例如「奇觀」、「只看他」等,給用戶帶來了良好的交互體驗。
雜談
最後,不知道大家還記不記得兩個月之前的一則新聞:「奧特曼粉絲卧底5年,終於從海賊王粉絲手裡奪回了貼吧」,具體事件不再展開,但是這個事件裡面所涉及到的動漫人物,一個是海賊王的艾斯,一個是奧特曼裡面的艾斯:
21.png
如果交給AI去視覺識別這兩個動漫人物,那真是太簡單了,但是這背後的真假粉絲以及卧底五年的犧牲,就不是AI可以簡簡單單識別出來的了,加上NLP或許也不夠。
人工智慧,還有一段很長的路要走~
參考文獻:
[1] Zheng, Yi, et al. “Cartoon Face Recognition: A Benchmark Dataset.” arXiv (2019): arXiv-1907.
[2] Liu, Yuanliu, et al. “iQIYI Celebrity Video Identification Challenge.” Proceedings of the 27th ACM International Conference on Multimedia. 2019.
[3] Liu, Yuanliu, et al. “iqiyi-vid: A large dataset for multi-modal person identification.” arXiv preprint arXiv:1811.07548 (2018).
[4] Brendan F Klare, Serhat S Bucak, Anil K Jain, and Tayfun Akgul. 2012. Towards automated caricature recognition. In 2012 5th IAPR International Conference on Biometrics (ICB). 139–146.
[5] Bahri Abaci and Tayfun Akgul. 2015. Matching caricatures to photographs. Signal, Image and Video Processing 9, 1 (2015), 295–303.
[6] Jing Huo, Wenbin Li, Yinghuan Shi, Yang Gao, and Hujun Yin. 2017. WebCaricature: a benchmark for caricature face recognition. arXiv preprint arXiv:1703.03230 (2017).
[7] Ashutosh Mishra, Shyam Nandan Rai, Anand Mishra, and CV Jawahar. 2016. IIITCFW: a benchmark database of cartoon faces in the wild. In European Conference on Computer Vision (ECCV). Springer, 35–47.
[8] Azuma Fujimoto, Toru Ogawa, Kazuyoshi Yamamoto, Yusuke Matsui, Toshihiko Yamasaki, and Kiyoharu Aizawa. 2016. Manga109 dataset and creation of metadata. In Proceedings of the 1st International Workshop on coMics ANalysis, Processing and Understanding. ACM, 2.
[9] Weiyang Liu, YandongWen, Zhiding Yu, Ming Li, Bhiksha Raj, and Le Song. 2017. Sphereface: Deep hypersphere embedding for face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 212–220.
[10] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, and Wei Liu. 2018. Cosface: Large margin cosine loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5265–5274.
[11] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. 2019. Arcface: Additive angular margin loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 4690–4699.
[12] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2980–2988.
[13] Haiming Yu, Yin Fan, Keyu Chen, He Yan, Xiangju Lu, Junhui Liu, and Danming Xie. 2019. Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition. In Proceedings of the IEEE International Conference on Computer Vision Workshop (ICCVW). 0–0.


點擊閱讀原文,直達「CCF-NLP走進高校之鄭州大學」直播頁面!