近年来,伴随着卡通产业的迅猛发展,卡通视频呈现出爆炸性增长。而实现对这些卡通视频智能理解的第一步就是需要识别出这些视频里面的卡通人物身份信息。同时伴随着人脸识别技术的发展,人物识别精度大幅提升,在Labeled Faces in the Wild(LFW)等图片数据集上,人脸识别精度甚至超过了人类的识别能力。然而,对卡通人物身份的识别,却鲜有研究,相关的数据集也比较少,如下表1。对于深度学习来说,这些已有的卡通识别数据集存在着数据量较小、噪声比例较大的问题。因此构建一个大规模、高质量的卡通识别数据集,并对卡通人物身份信息进行识别,则至关重要。表1 卡通人物识别相关数据集对比 2
爱奇艺开放了目前全球最大的手工标注卡通人物检测数据集与识别数据集iCartoonFace,包含超过5000个卡通人物、40万张以上高质量实景图片,这使得对卡通人脸识别技术的研究拥有了强有力的数据土壤。针对卡通人物的特性进行更加深入的模型优化研究,设计卡通真人多任务学习框架,可以有效地提高卡通人物识别性能。未来,加深对卡通人物识别能力的研究,设计更加鲁棒性的算法,从而可以处理遮挡、侧脸、模糊、变身等多种情况,使得识别的人数更多、可识别的样式更丰富,是一个非常有挑战性的问题。对卡通人物进行识别具有广泛的应用场景,不仅可以用于视频理解对视频进行结构化分析,还可以在智能剪辑创作、图片搜索、人物审核、广告等场景中得到广泛应用。例如图片搜索中加入卡通人物身份特征,使得搜索更加准确,通过分析视频中卡通人物的身份点位,可以提供给创作者进行智能剪辑,也可以用来对恶搞的讽刺漫画或者卡通风格人物进行审核辨识。通过人脸识别技术对视频中的人物信息进行结构化分析,目前已在爱奇艺公司的多个产品中应用,例如“奇观”、“只看他”等,给用户带来了良好的交互体验。杂谈 最后,不知道大家还记不记得两个月之前的一则新闻:“奥特曼粉丝卧底5年,终于从海贼王粉丝手里夺回了贴吧”,具体事件不再展开,但是这个事件里面所涉及到的动漫人物,一个是海贼王的艾斯,一个是奥特曼里面的艾斯:如果交给AI去视觉识别这两个动漫人物,那真是太简单了,但是这背后的真假粉丝以及卧底五年的牺牲,就不是AI可以简简单单识别出来的了,加上NLP或许也不够。人工智能,还有一段很长的路要走~参考文献:[1] Zheng, Yi, et al. “Cartoon Face Recognition: A Benchmark Dataset.” arXiv (2019): arXiv-1907.[2] Liu, Yuanliu, et al. “iQIYI Celebrity Video Identification Challenge.” Proceedings of the 27th ACM International Conference on Multimedia. 2019.[3] Liu, Yuanliu, et al. “iqiyi-vid: A large dataset for multi-modal person identification.” arXiv preprint arXiv:1811.07548 (2018).[4] Brendan F Klare, Serhat S Bucak, Anil K Jain, and Tayfun Akgul. 2012. Towards automated caricature recognition. In 2012 5th IAPR International Conference on Biometrics (ICB). 139–146.[5] Bahri Abaci and Tayfun Akgul. 2015. Matching caricatures to photographs. Signal, Image and Video Processing 9, 1 (2015), 295–303.[6] Jing Huo, Wenbin Li, Yinghuan Shi, Yang Gao, and Hujun Yin. 2017. WebCaricature: a benchmark for caricature face recognition. arXiv preprint arXiv:1703.03230 (2017).[7] Ashutosh Mishra, Shyam Nandan Rai, Anand Mishra, and CV Jawahar. 2016. IIITCFW: a benchmark database of cartoon faces in the wild. In European Conference on Computer Vision (ECCV). Springer, 35–47.[8] Azuma Fujimoto, Toru Ogawa, Kazuyoshi Yamamoto, Yusuke Matsui, Toshihiko Yamasaki, and Kiyoharu Aizawa. 2016. Manga109 dataset and creation of metadata. In Proceedings of the 1st International Workshop on coMics ANalysis, Processing and Understanding. ACM, 2.[9] Weiyang Liu, YandongWen, Zhiding Yu, Ming Li, Bhiksha Raj, and Le Song. 2017. Sphereface: Deep hypersphere embedding for face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 212–220.[10] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, and Wei Liu. 2018. Cosface: Large margin cosine loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5265–5274.[11] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. 2019. Arcface: Additive angular margin loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 4690–4699.[12] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2980–2988.[13] Haiming Yu, Yin Fan, Keyu Chen, He Yan, Xiangju Lu, Junhui Liu, and Danming Xie. 2019. Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition. In Proceedings of the IEEE International Conference on Computer Vision Workshop (ICCVW). 0–0.