近年來,伴隨著卡通產業的迅猛發展,卡通影片呈現出爆炸性增長。而實現對這些卡通影片智慧理解的第一步就是需要識別出這些影片裡面的卡通人物身份資訊。同時伴隨著人臉識別技術的發展,人物識別精度大幅提升,在Labeled Faces in the Wild(LFW)等圖片數據集上,人臉識別精度甚至超過了人類的識別能力。然而,對卡通人物身份的識別,卻鮮有研究,相關的數據集也比較少,如下表1。對於深度學習來說,這些已有的卡通識別數據集存在著數據量較小、雜訊比例較大的問題。因此構建一個大規模、高品質的卡通識別數據集,並對卡通人物身份資訊進行識別,則至關重要。表1 卡通人物識別相關數據集對比 2
愛奇藝開放了目前全球最大的手工標註卡通人物檢測數據集與識別數據集iCartoonFace,包含超過5000個卡通人物、40萬張以上高品質實景圖片,這使得對卡通人臉識別技術的研究擁有了強有力的數據土壤。針對卡通人物的特性進行更加深入的模型優化研究,設計卡通真人多任務學習框架,可以有效地提高卡通人物識別性能。未來,加深對卡通人物識別能力的研究,設計更加魯棒性的演算法,從而可以處理遮擋、側臉、模糊、變身等多種情況,使得識別的人數更多、可識別的樣式更豐富,是一個非常有挑戰性的問題。對卡通人物進行識別具有廣泛的應用場景,不僅可以用於影片理解對影片進行結構化分析,還可以在智慧剪輯創作、圖片搜索、人物審核、廣告等場景中得到廣泛應用。例如圖片搜索中加入卡通人物身份特徵,使得搜索更加準確,通過分析影片中卡通人物的身份點位,可以提供給創作者進行智慧剪輯,也可以用來對惡搞的諷刺漫畫或者卡通風格人物進行審核辨識。通過人臉識別技術對影片中的人物資訊進行結構化分析,目前已在愛奇藝公司的多個產品中應用,例如「奇觀」、「只看他」等,給用戶帶來了良好的交互體驗。雜談 最後,不知道大家還記不記得兩個月之前的一則新聞:「奧特曼粉絲卧底5年,終於從海賊王粉絲手裡奪回了貼吧」,具體事件不再展開,但是這個事件裡面所涉及到的動漫人物,一個是海賊王的艾斯,一個是奧特曼裡面的艾斯:如果交給AI去視覺識別這兩個動漫人物,那真是太簡單了,但是這背後的真假粉絲以及卧底五年的犧牲,就不是AI可以簡簡單單識別出來的了,加上NLP或許也不夠。人工智慧,還有一段很長的路要走~參考文獻:[1] Zheng, Yi, et al. “Cartoon Face Recognition: A Benchmark Dataset.” arXiv (2019): arXiv-1907.[2] Liu, Yuanliu, et al. “iQIYI Celebrity Video Identification Challenge.” Proceedings of the 27th ACM International Conference on Multimedia. 2019.[3] Liu, Yuanliu, et al. “iqiyi-vid: A large dataset for multi-modal person identification.” arXiv preprint arXiv:1811.07548 (2018).[4] Brendan F Klare, Serhat S Bucak, Anil K Jain, and Tayfun Akgul. 2012. Towards automated caricature recognition. In 2012 5th IAPR International Conference on Biometrics (ICB). 139–146.[5] Bahri Abaci and Tayfun Akgul. 2015. Matching caricatures to photographs. Signal, Image and Video Processing 9, 1 (2015), 295–303.[6] Jing Huo, Wenbin Li, Yinghuan Shi, Yang Gao, and Hujun Yin. 2017. WebCaricature: a benchmark for caricature face recognition. arXiv preprint arXiv:1703.03230 (2017).[7] Ashutosh Mishra, Shyam Nandan Rai, Anand Mishra, and CV Jawahar. 2016. IIITCFW: a benchmark database of cartoon faces in the wild. In European Conference on Computer Vision (ECCV). Springer, 35–47.[8] Azuma Fujimoto, Toru Ogawa, Kazuyoshi Yamamoto, Yusuke Matsui, Toshihiko Yamasaki, and Kiyoharu Aizawa. 2016. Manga109 dataset and creation of metadata. In Proceedings of the 1st International Workshop on coMics ANalysis, Processing and Understanding. ACM, 2.[9] Weiyang Liu, YandongWen, Zhiding Yu, Ming Li, Bhiksha Raj, and Le Song. 2017. Sphereface: Deep hypersphere embedding for face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 212–220.[10] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, and Wei Liu. 2018. Cosface: Large margin cosine loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5265–5274.[11] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. 2019. Arcface: Additive angular margin loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 4690–4699.[12] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2980–2988.[13] Haiming Yu, Yin Fan, Keyu Chen, He Yan, Xiangju Lu, Junhui Liu, and Danming Xie. 2019. Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition. In Proceedings of the IEEE International Conference on Computer Vision Workshop (ICCVW). 0–0.