图注:Luc Van Gool 教授Trace实验室的主要研究方向为自动驾驶计算机视觉,因此,针对人体与场景的图像合成与理解也成为了马里千在博士阶段的两大研究方向。读博期间,马里千一共发表了8篇顶会论文,其中一作就占了6篇。“读博期间,我就喜欢做自己想做的task(任务),这会让我感觉(这些任务)是自己的亲儿子一样。自己从头规划,定技术路线,到最后把它做出来。”马里千说。刚进入实验室时,马里千做的是人体多目标跟踪与重识别。在做的过程中,他发现了一个问题:在不同场景下,模型的适应能力很差,“换一个场景,模型就废了。”这时,实验室的师兄恰巧向他介绍了GAN这项技术,他觉得很新奇,就想:“为什么不自己生成一个数据集?这样就可以用仿真的方式解决数据标注成本高昂的问题。” 对GAN的兴趣驱使他转向了人体生成方向的研究。在这个过程中,他注意到GAN,并希望利用 GAN 技术生成一个人的不同姿势,以此来帮助做人体识别的任务。深入研究后,他发现人体姿势变换也是一个很有意思的研究问题,便开始专注于研究人体姿势变换。发表于NIPS 2017的工作“Pose Guided Person Image Generation”是马里千在博士期间的代表工作之一。这篇工作主要研究 2D 人体姿势迁移,首次定义了人体姿势变换这一问题。
论文地址://arxiv.org/pdf/1712.02621.pdfNIPS 2017的工作需要使用同一个人的不同姿势的数据(即“pair data”,配对数据)对模型进行训练,这就造成一个限制:如果从网上爬数据,那么爬到的数据很可能是一个人在一个场景上的单个姿势照片,而无法获取 Ta 在同一个场景的不同姿势照片。针对这种情况,马里千便想到使用“unpair data”(非配对数据)来进行模型训练。新的训练方式延伸出其他的技术效果。CVPR 2018的文章提出了一种基于自监督的解耦表达人体前景、背景、姿态特征的生成式模型。模型可以将人体的不同要素(五官、手臂、脚等等)进行解耦,然后通过分别控制这些要素来进行图像编辑,而不再局限于修改输入人体的姿势。总的来说,该模型可以用于人体图像生成与编辑,样本插值,人体姿态变换,以及行人重识别。
图注:人体图片样本插值(x1 和 x2 是真实图片)
此外,他们提出一种「高斯噪声-> 特征 ->图像」的映射方式,使得模型可以分别从高斯空间采样得到对应的前景、背景、姿态。学习方法分为一阶段(解耦图像重建)与二阶段(嵌入特征映射),其中,一阶段模型可以完成对人体图像的编辑,例如变换姿态和外观。但二阶段可以从先验分布中进行采样,生成一个完全不存在的人。除了人体识别生成,马里千的研究工作还包括场景识别生成。人体的运动更多是动态的、非刚体的,而场景研究则聚焦于静态物体,且更多是刚体运动。比如,一辆车的形变不会太大,但人体的形变非常不规则(这也是人体识别研究的主要难点之一)。根据场景研究的特点,马里千与团队成员从场景的3D信息入手,以进行场景视野的拓展。比如,最新发表的工作“Field-of-View Extrapolation Using Self-Attention and Uncertainty”(RAL-ICRA 2021,已申请欧洲和美国专利)可以将一个窄视频自动生成宽视频,有望应用于电影特效场景的合成:
在技术发展的同时,马里千的研究也同样处于这一领域的最前沿:他的研究内容更多是围绕基于条件的生成模型,同时,他的研究应用不仅局限于人脸,还包括人体。人体比人脸的形变更大,也更难驾驭。比如,在2019年的工作“Exemplar Guided Unsupervised Image-to-Image Translation with Semantic Consistency”(ICLR 2019)中,他利用 GAN 的无监督能力来帮助无配对数据学习;在“Disentangle Person Image Generation”一文中,他提出的二阶段思想,也是为了解决当时 GAN 技术中训练效果不佳的问题,先用第一阶段的模型学习人体构造,第二阶段是采样噪点至特征空间。“3D合成技术将是下一轮的重点。”马里千说。此外,马里千还注意到,在学术界,人工智能自动生成多媒体内容(AI-generated Media)的技术渐趋成熟,文字、音乐、图像、语音、视频等均可由 AI 自动完成;而在单一的音频、图像生成外,深度生成技术正在朝着综合性方向发展,他曾设想的“影视自动化”,此时看起来已经不再是遥不可及的目标。
读博期间,实验室的创业氛围也影响了他。马里千介绍,博导 Luc Van Gool 本人就身兼数职,创业热情非常高,投资了许多创业公司,“老师看问题的主要角度之一也是从‘这项工作有没有用’出发”;实验室里的许多成员也是边读博边在创业公司担任CTO,或者毕业后开一个创业公司,围绕博士期间的研究课题做商业化落地。
2019年在 Adobe Research 实习时,马里千及团队曾提出一种叫做“Unselfie(非自拍)”的图片转换方法,通过识别目标的姿势并生成身体的纹理,在给定的自拍背景中完善与合成人物,“自拍”秒变“他拍”:
“多媒体内容的制作成本非常高,比如一条抖音短视频,要有创意,有后期制作,还有演员、摄影师等等。而当你投入很大的成本去拍一条视频时,你并不能确保你的视频能够吸引到很大的流量。”在这种情况下,AI 自动生成技术无疑能大大降低创作的时间和金钱成本,让创作者只要给出最核心的idea、便能看到 AI 生成的优质内容,减少投入的成本和风险。