2020总结 | 腾讯优图: 做产业互联网时代的π型实验室

12月30日,腾讯优图2020年度沟通会于海南正式举办,腾讯优图实验室总经理、腾讯云副总裁吴运声、腾讯优图实验室副总经理黄飞跃、腾讯优图实验室总监吴永坚、腾讯优图实验室总监任博,腾讯研究院高级研究员徐思彦等大咖出席了活动,并就2020年的业务进展和人工智能趋势做了完整的解读和分享。

开场致辞中,腾讯优图实验室总经理、腾讯云副总裁吴运声表示,今年沟通会的主题是“再出发”,突如其来的疫情打乱各行各业节奏的背景下,腾讯优图实验室正在不断适应变化,以全新姿态迎接业务环境,真正做到Restart。

现场,腾讯优图实验室副总经理黄飞跃博士带来了主题为《腾讯优图,做产业互联网时代的π型实验室》,他表示,经过2020年的考验,腾讯优图更加坚定的拥抱未来的变化和面临的挑战,更加坚定了腾讯优图在研究、落地两手都要抓的定位,秉持“两条腿走路、两种能力兼备、两个能力都有认识”的策略,做产业互联网时代的π型实验室。

以下是演讲全文

大家好,我是黄飞跃。

又是一年一度的相聚时刻,每年的年末,我们都在这样一个面朝大海,温暖温馨的环境里,和各位朋友们近距离的聊聊优图,聊聊AI,也倾听大家对于优图的意见和建议。

π型人才这个词今年很热,我们会看到很多企业都在提π型人才,也就是能够至少拥有两种专业技能,并能将多门知识融会贯通的复合型人才。我们把π型核心点归纳一下,会发现其实现代社会越来越注重知识结构和能力结构,只有当智力深度和思维广度的有机整合,才能激荡酝酿,才能不断创新,适应未来的社会发展。

今年,我想用π型作为对于优图实验室的期许和定位。随着AI不断大众化,更深度的和我们的日常生活去结合,在各行各业的持续普及,助力行业降本增效,不论作为只专注研究或者只注重落地商业化的AI机构团队,它都不是一种可持续的发展态度,因此,优图更加坚定的拥抱未来的变化和面临的挑战,更加坚定了优图在研究、落地两手都要抓的定位,秉持“两条腿走路、两种能力兼备、两个能力都有认识”的策略,做产业互联网时代的π型实验室。

对优图来讲,我们一直在π型的修炼之路上持续自我进化。

从早期的互联网时代,优图夯实技术研究,始终专注基础研究,到互联网+时代,优图践行产业落地两条腿走路的发展战略,用AI服务连接各行各业,深挖客户痛点。到今天的产业互联网时代,我们更多的强调和众多合作伙伴形成良好的合作关系,一起发展AI事业,连接AI生态。

介绍一下优图,我们成立于 2012 年,发展至今已有 8 个年头,从最开始专心精进视觉 AI,到确定“基础研究 + 产业落地”双轨前进路线,再到积极拥抱开源开放。在算法研究方面,优图多次在人工智能国际权威竞赛中创造世界纪录,目前我们拥有 800 余项 AI 相关专利,50多项国际比赛冠军。在落地应用方面,我们提供超20个AI+解决方案,打造100+腾讯明星产品案例。今年6月,我们正式开源了AI框架TNN,目前已经成为优图最火的AI开源项目之一。

从今年优图整体的研究进展来讲,我用两个词来形容,突破化和自动化。

第一个突破化,我重点讲一下生物特征识别,如何准确鉴定一个人的身份,从而保护信息安全,由于传统的身份认证极易伪造和丢失,难以满足社会的需求,目前最为便捷与安全的解决方案无疑就是生物识别技术。而每增加一种生物识别特征,系统的出错率都会降低几个数量级,多样化的生物识别叠加可以为我们提供更安全和便捷的技术保证。优图从最早做的可见光人脸,到3D深度人脸,到近红外人脸,再到可见光掌纹,掌静脉,虹膜等,整体生物特征研究往着更加深度的趋势去走。

在掌纹识别领域,优图在测试环境下可以真正区分双胞胎,对于刷脸这种生物识别形式,是一种很好的补充方案;

在活体检测方面,除了常规的基于视觉AI的活体检测以外,我们探索了基于超声波的活体检测算法,可以区分真人和来自屏幕或者硅胶面具的攻击。疫情期间,我们结合热红外测温的场景,开发了基于热红外成像的活体检测技术,可以在测温的同时,完成刷脸和活体验证。

第二个突破化,我想介绍一下我们在泛人脸领域的突破,从特点上来讲,它向着更广泛的研究领域进发。

今年,我们将人脸图像的研究范围拓展至漫画、线条画、卡通画等广义的人脸图像领域,将研究对象从真实的人物拓展到这些抽象的并有着极大挑战的泛人脸图像。我们今年在IJCAI2020的卡通脸检测竞赛中获得第一,这些全新研发的算法技术可以很好的应用于广义的人脸图像识别领域,为版权保护、动画识别等带来技术助益。此外,我们还研发了基于手绘图生成真实图像的视觉算法,这些都可以给我们带来未来应用新的想象力。

第三点,我想围绕最近很热的深度合成来讲,我们称它为antifake,简称识别防伪技术。

随着人脸技术的大规模应用,人脸安全愈发重要。基于优图多年以来的研究和算法积累,提前布局可能出现的攻击形式,例如 人脸编辑、人脸对抗攻击, 我们将物理介质防御(活体检测),拓展到内容生成防御和模型对抗攻击防御,构建更安全的防御平台。

在物理介质防御上,我们进一步研发高精度算法,支持对逼真3D面具、头模的防御,打造全场景通用核身方案,研发算法也发表于ECCV、AAAI等顶级会议。在内容生成防御上,研发新型人脸伪造检测算法,全面覆盖人脸生成、编辑、替换等算法的检测,构建高精度防伪系统,并且获得全球deepfake检测比赛冠军。在模型对抗防御上,我们研发了隐蔽式的彩妆对抗攻击,并支持对数字图像、物理世界对抗攻击的防御,构建模型安全防御平台。这一系列完整的人脸安全体系进一步保障了人脸应用的安全。

第二个很大的研究趋势,则是自动化。它的核心目标是实现算法层面的全面自动化,包括测试数据层面,和模型训练层面。今年,优图在减少数据依赖、模型设计、训练优化和模型压缩等四个方面进行了深入的研究,发表了包括TPAMI和NeurIPS在内的超过20篇顶级会议和顶级期刊论文,支撑了10余条业务线。

接下来我介绍一下自动化。

针对算法自动化,优图实验室分别在自动化数据生产和自动化模型生产两个方面进行了深入的研究。举例来说,在今年抗击疫情的过程中,我们通过数据生成的方式1个月就合成了3800万张的戴口罩人脸图像,极大地提升了戴口罩人脸的检测召回率。于此同时,针对海量车辆无标签数据,我们通过无监督算法自动生成标签,为客户在两周的时间内定制了渣土车的识别能力,效果提升43%。

在自动化模型生产部分,我们通过引入自动化模型设计并对训练范式进行优化来减少算法人员的投入,预计可以减少算法人员在手工调参上90%的耗时;同时通过模型压缩的手段,我们可以将常用的网络结构(例如ResNet56)的计算量减少93%,配合量化和前向框架加速后预期可以取得更加显著的加速效果。

在今年的落地实际遇到的问题而言,我们发现,在技术不断切入实际应用领域的过程中,AI需求整体呈现碎片化和场景化的特征;针对这样两类截然不同的实际需求问题,我们从以下两个角度来解决。提供对于碎片化需求的全面体验化的能力,以及对特定行业、垂直场景的分布定制化解决方案。

第一点,我聊一聊全面体验化。

疫情以来,线上视频会议得到了迅速发展,以腾讯会议为例,在实际使用的过程中,用户就会有一些碎片的需求,非常影响到在线会议产品的体验。举个例子,用户开会的背景里面有很多私密或者敏感的元素,但是短时间内用户没有办法找到一个合适的场所来开会,这怎么办呢?

我们为腾讯会议提供了一个非常实用的功能,叫做虚拟背景,技术上来讲称为人像分割,我们可以用同一原始像素的模糊版本替换背景对象,也可以将整个背景对象变成黑色、白色或任何其他颜色,甚至将背景对象替换成由演讲者或其所在公司决定的其他图像,例如公司的徽标等等。这项人像分割技术,我们称为LIP,今年斩获多项国际权威榜单第一名,从技术上来讲,我们不仅使得边缘分割的精度达到亚像素级,同时实现了视频帧间的实时稳定处理,这也是远超业界水平的。

此外,当我们通过视频会议中紧盯着屏幕的时候,会因为摄像头和屏幕与人眼之间的夹角,在视频会议中给对方呈现出向下看的感觉,无法实现面对面沟通中的眼神交流,容易令对方产生“对方是不是不专心、走神了”等误会。基于此,我们近期也在腾讯会议上线了一个特别有趣的体验化功能,叫做视线矫正。我们通过实时高精度人脸跟踪算法,智能识别出待处理人脸区域,并将该区域送入深度神经网络中进行编码,生成眼神调整后的图像,从而实现在视频会议场景下自然的眼神接触效果。大家戏称这是一项专治走神的技术。

疫情期间,我们的人脸核身技术支持了北京、上海等全国多地的健康码的核身过程,此外,我们通过腾讯云与微信开放平台为140多个行业,超过5000家政府机构与企业提供核身服务,这项技术在市场占有率上保持了绝对领先。而核身技术的领先,正是我们不断迭代优化的结果。自 2014 年,我们就开始了人脸核身技术的研发,从微众银行、腾讯云慧眼,再到微信小程序,在这个过程中不断提升了技术能力和丰富了技术体验。

而在核身技术中,活体检测是重中之重:黑产会不断尝试在各个方面进行攻击。从 2014 年至今,我们已经迭代了 5 个不同的解决方案,从最开始的动作唇语,到交互检测,到优图独创的光线核身方案,再到现在更加先进的解决方案,通过海量用户触达,不断更新的技术,我们把人脸核身这件事做到了体验化的极致。

在刷脸支付方面,我们的AI识别算法通过100多种设备形态落地如商场、超市、学校、医药等大量场景,为社会各界带来便利的支付体验。通过端云的协同识别,让用户感受到秒级刷脸的体验。通过精准的3D人脸识别,我们保障暗光等困难场景下,刷脸持续可以使用;我相信,这一系列的技术的极致体验化,也代表着我们在刷脸支付方面技术的最佳能力印证。

最后,我想提一下OCR。

今年第七次的全国人口普查全面采用“无纸化”方式开展普查登记,而这次,微信小程序上的电子化普查让人们可以自主申报,大大降低普查成本、提升普查效率。这里面,优图提供了身份证OCR技术,通过拍照上传证件,可以轻松快捷的实现人证核查。这也是我们众多的OCR能力在为各类服务体验提供的能力之一。目前,我们的OCR服务,构建了四大完整解决方案,提供50余项原子能力,为金融、财税、法律服务等行业提供全面体验化的服务。值得一提的是,今年12月,我们刷新了ICDAR OCR信息提取纪录,这也标志着我们的OCR从识别进入了理解,构建了更深的技术积累。

第二点,分布定制化。

在5G时代,未来定制化服务能力的高低,将决定企业的核心竞争力高低。根据分布在各行各地客户的实际要求,我们实现在线定制,满足客户实际需求。接下来,我会拿零售、工业、媒体这三个行业来做介绍。

前两年,整个零售行业关注的都是单独地对“人、货、场”进行数字化,而实际零售场景中所发生的数字化都不会单独仅与其中一个有关,而是基于人和场或者人和货的互动,因此优图持续在积累以人为核心而连接数字化,并且持续提供AI技术的定制储备。

以服装行业3D智能虚拟试衣为例,你只需要点击几下试穿键,就可以看到自己喜欢衣服的试衣效果,然后上传给后端制衣工厂,就可以坐等收货。这个过程看似简单,实际上则需要极大的AI助力。今年优图打造的3D虚拟试衣技术,能够为用户提供极为贴合的试衣效果,不仅可以让顾客更理性的做出决定,减少退换货给品牌方带来的额外成本,同时可以帮助品牌方更了解顾客的决策链,为未来风格的设计提供量化数据支撑。此外,针对美妆品类,我们提供在线AI试妆的能力,可以实现实时视频流,提供包括眼影、唇色、腮红等实时试妆技术,让顾客所见即所得。

第二个行业,我想重点提一提工业领域。

对于工业场景来说,融合AI最大的挑战在于AI的释放需要设备、网络和算力作为基础条件,而工厂显然不能拆掉流水线去为AI寻找容身之所。所以工业最开始尝试的,只能是外部的、浅层的工业智能化能力。于是质检作为一个特殊场景跃然而出,这也是优图早期重点探索的方向。如果说AI质检,更多价值是在单一场景中解决人工重复劳动的问题。那么当AI开始在工厂里玩数据、玩模型,则正式让工业AI走向了“脑力劳动”的岗位。

优图从18年为华星光电提供首个定制化的工业AI质检服务,到今年我们联合腾讯云推出工业视觉AI平台,为行业客户提供不同的光学、成像、自动化机构方案,这是一个非常大的跨越式挑战。通过工业视觉AI平台,我们提供从数据采集、标注、训练、评测、推理的全流程功能,针对不同技术背景的用户画像,提供不同的训练方案,让客户能自主训练与迭代属于自己的模型;目前,我们已经为3C、半导体、航空制造、烟草等领域的客户提供定制的解决方案,帮助客户实现了降低人力成本、提高质检效果、优化管理效率。

第三个领域,我介绍一下广电传媒行业。

在座的各位都是媒体朋友们,相信对这个领域会比较感兴趣。在广电传媒行业,传统方式是通过大量人力进行拆条、编目和审核等工作,产出效率低并且质量良莠不齐,人工处理效率大约1个小时的视频人工处理要花3~5个小时,而每个人又会因为对标准的理解不同、操作经验、工作情绪等因素导致输出结果不一致。

对于这样的行业特征和定制需求,优图联合腾讯云打造的媒体AI中台,为广电传媒行业提供了几乎各个业务场景所需的智能应用,包括智能标签、拆条、编目、审核等,通过AI的方式帮助行业实现快速分析和理解视频的音视图文,从而输出所需的结构化信息。此外,基于视频理解能力,在结果稳定输出的同时,实现24小时不间断工作,大大提高了行业效能。总的来说,媒体AI中台综合多模态AI服务和平台管理能力,提供给广电传媒行业定制化的服务和平台体验。

总结一下,腾讯优图在 CV 领域的一系列技术解决方案已经深入到包括零售、教育、金融、工业、泛企等在内的多个行业。我们提供20+AI开放能力,10000+AI生态伙伴,未来,我们也将秉持产业落地、基础研究这样双轨道,复合型的π型发展定位。

最后,我想用四个词语来作为对于未来优图乃至AI发展的期许:社会进步、技术探索、AI for Good、生态合作。

我们希望AI创造对生活的改变,从而更好的服务人类社会;而每一个在优图的AI工作者,希望时刻保持我们对于技术的敬畏和对研究的好奇心,同时,我们更加注重合作和生态,不论是产业界、学术界、乃至社会领域等等,我们希望秉持AI for Good的价值观,do the right thing。

从去年开始,我们推出腾讯Light计划,每年在这样的基础上不断迭代优化,今年上午,我们发布了腾讯light.公益创新挑战赛,希望真正的开放腾讯累积多年的AI技术能力,从我们自己做AI公益,到呼吁更多的开发者一起来做AI公益,让科技公益人人可及。

此外,我们从17年开始对外正式开源,截止目前我们开源超过10个精品作品,包括ncnn、TNN等AI框架,也包括人脸检测算法 DSFD(Dual Shot Face Detector)、动作检测算法 DBG、通用目标检测算法 OSD(OneStageDet)、图像超分 SuperResolution-RealSR、人脸关键点算法 FHR(Fractional Heatmap Regression ) 、人脸属性算法 FAN 等优秀算法。正如腾讯高级执行副总裁汤道生所述开源对于腾讯的意义,“开源不再是开发者的个人热情,它已成为许多技术驱动型产业背后重要的创新推动力。我们将进一步拥抱开源,与广大开发者一起创造正向价值” 。

谢谢大家!

Tags: