学术资讯 | 优Tech分享 | 人工智能前沿讲座,助力未来新时代

随着5G技术的普及、全球数据的快速增长,让人工智能按下了“加速键”,处在高速发展的阶段。为了让大家进一步了解人工智能这项技术的发展趋势,腾讯优图与腾讯学院邀请了6名高校的学术大咖,于9月14日-10月13日,联合举办了将近1个月的【优Tech人工智能前沿讲座】,为大家一一揭开人工智能的奥秘。

这次讲座包含了以下几个主题:纪荣嵘教授的《CV顶会解读》、谭明奎教授的《基于图卷积的视频动作定位与识别》、程明明教授的《自适应视觉感知技术》、郑伟诗教授的《视频交互行为解析》、赫然研究员的《以人为中心的神经渲染》、鲁继文教授的《深度度量学习与视觉内容理解》。

接下来,让我们一起来回顾这些精彩的讲座。

9月15日,厦门大学纪荣嵘教授以《CV顶会解读》为主题作了相关分享。纪教授曾获2007年微软学者奖、2016年教育部技术发明一等奖等奖项,更是VALSE 2017大会主席,在计算机视觉与多媒体技术的研究上有很深的造诣。

这次大会上,他主要围绕ICML、NeurlPS、CVPR、ICCV和ECCV等人工智能顶会的研究变迁作了相关的专题报告,一起和大家回顾近年来人工智能的研究热点,并对未来发展趋势进行了分析解读。

纪荣嵘教授 现场分享

纪教授以模型压缩加速、神经网络结构搜索、对抗攻击和防御、弱监督学习、图像自动描述和神经网络可解释性等方向为代表,从近三年的顶会论文数量变化、最新研究成果、核心研究团队及未来趋势等多个方面对当前计算机视觉与深度学习算法研究热点与趋势进行了深入介绍。

纪荣嵘教授 现场分享

最后,纪教授给出了自己的几点看法:

1、以NAS为主的自动化网络结构设计未来一定会成为主流方案;

2、对抗攻击和防御这两个研究方向正处于高速发展阶段,要提前布局对抗攻击和防御;

3、NAS、对抗攻击和防御等问题最终都可归结到模型可解释性上。

视频分析是人工智能研究的热门领域,近年来研究热度持续上升,在直播、安防、自动驾驶中都有应用需求。对此,南理工大学谭明奎教授于9月16日分享了《基于图卷积的视频动作定位与识别》的专题报告。

谭明奎教授 现场分享

谭教授是南理工大学“人工智能与机器学习”团队负责人,曾获得世界华人数学家联盟最佳论文奖、第六届MICCAI workshop最佳论文奖等奖项,具有很深的学术造诣。

就当下而言,谭教授认为视频分析的难点在于如何自动高效的找到异常行为片段、如何找到感兴趣片段,而基于【图卷积的视频时序动作定位与识别方法】恰巧能解决这个难题。这个方法能考虑时序动作proposal之间的关系,对节点自身特征和其邻居特征进行聚合,对proposal间的关系进行建模,有效提升动作定位与识别的精度,降低计算复杂度和含有噪声片段的影响。

谭明奎教授 现场分享

不过也有一些不足之处,比如图的结构相对固定,不能够动态调整,且目前仅考虑了proposal的时序关系,却将其它关系置之脑后等等,而这些不足也是以后需要研究攻克的目标。

关于视频动作定位未来的发展方向,谭教授指出主要有以下4个方向:

1、利用无标注数据训练动作定位算法;

2、在复杂背景中定位微小动作;

3、在边端设备部署高效的动作定位算法;

4、当前仅考虑了proposal的时序关系,可以探索其他关系。

最后谭教授介绍了其研究团队在视频分析方向的其他相关工作:

1、基于nlp的视频动作定位;

2、基于弱监督学习的时序动作定位;

3、基于自注意力机制的时序动作定位;

4、基于跨模态关系感知的视频事件定位;

5、基于位置感知的图卷积网络的视频问答;

6、基于视频的公交车驾驶员异常行为检测。

计算机需要识别的目标物体大小各异、形状复杂、环境多变、类别众多,所以要求计算机理解图像内容远比我们想象的要复杂得多。基于此,在9月23日,曾入选Elsevier 2016-2018中国高被引学者榜单,研究成果被英国《BBC》、美国《赫芬顿邮报》等国际媒体撰文报道的学者——南开大学的程明明教授作了关于《自适应视觉感知技术》的主题分享。

程明明教授 现场分享

程教授主要聚焦讲解以下三个内容:

在深度学习出现之前,多尺度信息的获取就是计算机视觉研究的一个重点。其中最具代表性的是SIFT(Distinctive image features from scale-invariant keypoints)。虽然SIFT能够在一定程度上处理多尺度信息,但是毕竟手工设计的模式有限。

随着2012年Hinton研究组在ImageNet比赛中大放异彩,深度学习快速成为计算机视觉中最主流的技术。最主要的,还得归功于该模型可以非常有效地学习各种尺度的特征表达。

为了得到更丰富的特征,可以对卷积进行优化。将卷积得到的特征在传入下一层特征之前,对特征进行分组,每一组分别提取特征。这样能提取到图像多尺度的信息,同时降低了网络的计算量。应用这种新型backbone可以在图像分类,物体检测,语义分割和实例分割等任务上,以谋求效果的全面提升。

以语意分割的任务为例,为了得到比较好的结果,我们需要拥有对形状很复杂物体的处理能力。即模型不仅需要细节的信息,也需要捕捉全局信息。

然而之前的方法需要计算很大的affinity matrix或者使用Dilated convolution,没有很好地捕捉到各向异性的信息。所以程明明团队提出了Strip Pooling (SP) 模块。SP可以在网络进行前向信息传播时,对不同方向的信息进行处理,得到更丰富,更细节的信息表达。最终SP模块在语义分割的任务上取得非常好的效果。

集成学习可以显著的提升模型效果,然而传统的集成学习需要很高的计算量。基于此,程明明团队提出了基于深度负相关学习的鲁棒回归策略:不同模型底层的信息是很相似的,所以让集成的模型共享底层的特征来降低计算量。同时从理论层面上证明了这种策略会使得神经网络更容易优化。该方法在人群计数和超分辨率等任务上取得了更高的指标。

9月25日,中山大学的郑伟诗教授分享了《视频交互行为解析》的主题报告。郑教授不仅担任Pattern Recognition等期刊的编委,更是机器智能与先进计算教育部重点实验室副主任,对视频图像信息与信号的识别与预测有深入的研究。

这次,郑教授主要从信号特征成分解析建模和多对象图关联建模角度,为大家解析在多模态行为识别、行为意图预测识别、行为质量评估和行为焦点检测上的研究工作。

郑伟诗教授 现场分享

在会上,他分别对交互行为识别、群体行为识别、行为质量评估等三个方面提出相关的解决方案及建模架构。以群体行为意图识别为例,郑教授团队提出了一种基于时空逻辑关联的图建模技术:这是一种广义内积函数建模人与人之间的特征信号交互的图模型,基于该建模,进一步将群体行为识别推进到神经网络,引入了隐变量来联络各对象观测信号与群体特征编码。

并使行人检测和交互特征分析共享特征层。同时,郑教授团队提出基于图卷积网络推理的焦点人物探测来分析群体中的人物重要性,在此基础上,又引入了更多特征,比如朝向特征行为特征等,然后一起送到图中进行有效训练。而且这种模式在半监督setting中也有很好的效果。

郑伟诗教授 现场分享

最后,郑教授还向我们透漏未来视频交互行为的研究方向,主要针对以下两点:

1、实现复杂视频监控环境下的目标追踪,行为特征信号分析;

2、研究多传感器下机械臂操作视频图像分析。

神经渲染是近年来新兴的交叉研究课题,是一种结合深度神经网络模型和计算机图形学先验知识的图像视频生成理论和方法,可以显示和隐式地控制视觉数据的属性。中科院赫然研究员一直在钻研这个领域,于9月28日作了《以人为中心的神经渲染》的主题分享。

赫然研究员 现场分享

赫然研究员是中科院自动化所模式识别国家重点实验室研究员,曾获视频生成竞赛冠军,出品过1部信息理论学习专著,在图像视频生成理论和方法上有很高的成就。

在会上,他告诉我们计算机图形学可以精准地控制生成结果,但是计算耗时大,生成逼真效果难;而深度神经网络恰巧可以弥补它的缺陷,能生成逼真的结果,但却需要大量的训练数据。

赫然研究员 现场分享

随后赫然研究员以音频驱动人脸动画生成和人脸重光照应用为例,介绍了他们团队的工作是如何将图形学的知识应用到深度生成网络的应用中,并提出以后深度神经网络的研究方向应该往小数据集向大数据集,单一物体或简单场景向多物体或复杂场景等方向发展。

最后赫然研究员为我们指出了未来的发展方向:

1、多模态的场景表达:视觉和音频多模态输入;

2、通用性:小数据集向大数据集,单一物体或简单场景向多物体或复杂场景;

3、可控性:学习更多编辑属性,如相机参数,姿态,光照,纹理,表情,语音等;

4、高质量:高分辨率和高逼真度,视频时序高一致性。

清华大学自动化系鲁继文教授于2020年10月13日,以《深度度量学习与视觉内容理解》为题作出相关的分享。鲁教授长期从事计算机视觉、模式识别和智能机器人等领域的研究工作,曾获获ICME 2018最佳铂金论文奖、2018年JVCI杰出服务奖、2019年T-CSVT最佳编委奖等奖项。

这次,他为大家介绍了距离度量学习的相关内容,即学习出图像之间的距离计算方法,精准地描述目标之间的相关性,包括小样本深度度量学习、无监督深度度量学习、多视图深度度量学习和非均衡深度度量学习。

鲁继文教授 现场分享

以小样本深度度量学习为例:鲁教授认为在人脸识别任务当中,如果已知标签的样本数据非常少,就需要利用弱监督的方式设计目标函数。

鲁教授在2014年第一次提出基于深度神经网络的判别深度度量学习方法去解决小样本人脸识别中的人脸匹配问题,该方法设计了一个轻量级的神经网络模型,将人脸图像pair输入到网络中进行特征提取,然后对同id的人脸pair特征距离拉近同时增加不同id人脸pair之间的距离,最后基于此设计了label无关的损失函数对网络参数的约束,使之能够针对不同的人脸提取具有判别性的特征,从而达到人脸匹配的目的。

鲁教授同时提到了17年针对亲属关系的人脸识别工作,从父子,父女,母子,母女四种关系上对任意两张图片的人脸进行匹配,准确率达到了80%。为了进一步提升弱监督人脸识别的性能,他们于18年提出了基于局部和全局特征相似度的局部化深度度量学习框架,该方法不仅关注全局的特征相似度,更从局部特征相似度出发,构建了动态相似度权值调整的度量学习策略,大大提升了弱监督条件下人脸匹配的准确率。

此外,他们也在迁移学习和domain adaption领域中,利用了小样本深度度量学习的思想做出了一些贡献。比如在15年,他们提出了Deep Transfer Metric Learning(DTML)方法,主要思想是利用深度神经网络对不同domain的数据进行高维非线性映射,从而使得这些数据在高维特征空间具有判别性。


现在,全球人工智能产业的生态系统正逐步成型,彻底告别了喊口号的时代,步入稳定发展的轨道。腾讯优图实验室,作为腾讯下顶级人工智能实验室之一,一直聚焦计算机视觉,专注人脸识别、图像识别、OCR、机器学习、数据挖掘等领域开展技术研发和行业落地,让人工智能助力社会的改革变化。


Tags: