本周 Paper推荐丨CVPR2020最佳论文，最佳学生论文，清华大学自监督学习综述等

2020 年 6 月 22 日
AI
其他

CVPR 2020最佳论文：无需任何监督，即可重建三维图像

【CVPR 2020最佳学生论文】BSP-Net：通过二叉空间分割生成紧凑网络

【清华唐杰团队】自监督学习：生成型or对比型

【SIGGRAPH 2020 】从视频到动画的无配对动作风格迁移

深度多模态数据分析综述：协作、竞争和融合

CVPR2020最佳论文：无需任何监督，即可重建三维图像

论文名称：Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

作者： Wu Shangzhe /Rupprecht Christian /Vedaldi Andrea

发表时间：2019/11/25

论文链接：//arxiv.org/abs/1911.11130

代码地址：//github.com/elliottwu/unsup3d

项目地址：//elliottwu.com/projects/unsup3d/

Demo 地址：//www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of-probably-symmetric-deformable-3d-objects-from-images-in-the-wild.html

推荐原因

作者提出一种无需外部监督即可从原始单视图图像中学习3D变形对象类别的方法。基于原始单目图像学习3D可变形物体类别，而且无需外部监督。其使用的方法是基于一个自动编码器，这个编码器能够将每张输入图像分解为深度、反射率、视点和光照四个组件。

为了在不进行监督的情况下解开这些组件，作者使用了以下事实：许多对象类别至少在原则上具有对称结构。作者证明了关于照明的推理使我们能够利用基本的对象对称性，即使由于阴影而导致外观不对称。

在训练过程中，作者使用Adam优化器对batch为64的输入图像进行训练，图像大小resize为64×64像素。输出深度和反射率的大小也是64×64。训练大约进行5万次迭代，对于可视化，深度图将上采样到256。

实验表明，该方法可以从单视图图像中非常准确地恢复人脸，猫脸和汽车的3D形状，而无需任何监督或预先的形状模型。在基准测试中，与另一种在2D图像对应级别上使用监督的方法相比，作者证明了更高的准确性。

【CVPR 2020最佳学生论文】BSP-Net：通过二叉空间分割生成紧凑网络

论文名称：BSP-Net: Generating Compact Meshes via Binary Space Partitioning

作者： Chen Zhiqin /Tagliasacchi Andrea /Zhang Hao

发表时间：2019/11/16

论文链接：//arxiv.org/abs/1911.06971

推荐原因

这篇论文从多边形网格入手，多边形网格在数字 3D 领域中无处不在，但它们在深度学习革命中仅扮演了次要角色。学习形状生成模型的领先方法依赖于隐函数，并且只能在经过昂贵的等值曲面处理过程后才能生成网格。为了克服这些挑战，该研究受计算机图形学中经典空间数据结构 Binary Space Partitioning（BSP）的启发，来促进 3D 学习。

BSP 的核心部分是对空间进行递归细分以获得凸集。利用这一属性，研究者设计了 BSP-Net，该网络可以通过凸分解来学习表示 3D 形状。重要的是，BSPNet 以无监督方式学得，因为训练过程中不需要凸形分解。

该网络的训练目的是，为使用基于一组平面构建的 BSPtree 获得的一组凸面重构形状。经过 BSPNet 推断的凸面可被轻松提取以形成多边形网格，而无需进行等值曲面处理。生成的网格是紧凑的（即低多边形），非常适合表示尖锐的几何形状。此外，它们一定是水密网格，并且可以轻松参数化。该研究还表明，BSP-Net 的重构质量和 SOTA 方法相比具备竞争力，且它使用的原语要少得多。

【清华唐杰团队】自监督学习：生成型or对比型

论文名称：Self-supervised Learning: Generative or Contrastive

作者： Liu Xiao /Zhang Fanjin /Hou Zhenyu /Wang Zhaoyu /Mian Li /Zhang Jing /Tang Jie

发表时间：2020/6/15

论文链接：//arxiv.org/abs/2006.08218

推荐原因

近日，清华大学教授唐杰发表了一篇《Self-supervised Learning: Generative or Contrastive》的综述文章，文章收录了160+篇文章，包括NLP、CV、Graph等领域的算法。文章中，研究者讨论了新的自监督学习方法在计算机视觉、自然语言处理和图形学习中的表征。

收集了近年来对自然语言处理，计算机视觉和图形学习的研究，以对自监督学习的前沿领域进行最新、全面的回顾。

综上所述，他们的贡献如下：

提供自监督学习最新、最详细的概述，介绍背景知识、变量模型和重要的框架，可以比较简单的掌握自我监督学习的前沿思想。
将自我监督的学习模型分为生成型，对比型和生成对比型（对抗性），每种都包含特定的类型。展示了每种分类的利弊，并讨论最近从生成转向对比的转变。
研究了自我监督学习方法的理论合理性，并说明它如何有益于下游监督学习任务。
确定该领域中的几个未解决的问题，分析其局限性和边界，并讨论自监督表示学习的未来方向。

SIGGRAPH 2020 | 从视频到动画的无配对动作风格迁移

论文名称：Unpaired Motion Style Transfer from Video to Animation

作者：Aberman Kfir /Weng Yijia /Lischinski Dani /Cohen-Or Daniel /Chen Baoquan

发表时间：2020/5/12

论文链接：//arxiv.org/abs/2005.05751

推荐原因

通过观察一个人走路时的动作细节，往往能推测出走路者的情绪、年龄乃至性格。在制作角色动画时，也希望生成具有多样风格的动作，从而增强真实感与表现力。传统的动作捕捉技术成本高昂，基于已有动作进行风格迁移——从动作片段 S 中提取风格信息，应用到动作片段 C 的内容上——是更加经济可行的做法。

已有的动作风格迁移方法大多依赖于成对训练数据，即内容（如脚步、运动轨迹）完全相同，仅风格不同的动作；此外，它们往往不能迁移训练中从未出现的风格。为了突破这些限制，作者提出了一种新的动作风格迁移框架，直接从无配对、仅含风格标签的训练数据中学习，能在测试阶段迁移从未见过的新风格。进一步地，它能绕过三维重建，直接从二维视频中提取风格，迁移到三维动作上，大大拓展了动作风格迁移的应用范围。

作者提出的方法能够基于内容、风格动作片段给出高质量的迁移结果。输入片段无需具有相似的动作内容。对于视频输入，作者使用 OpenPose 提取骨架信息，将得到的二维动作作为网络的风格动作输入。

深度多模态数据分析综述：协作、竞争和融合

论文名称：Survey on Deep Multi-modal Data Analytics: Collaboration, Rivalry and Fusion

作者：Wang Yang

发表时间：2020/6/15

论文链接：//arxiv.org/abs/2006.08159

推荐原因

这是一篇综述论文，已经被ACM Transactions on Multimedia Computing Communications and Applications接收。这篇论文关注的是利用深度学习进行多模态数据分析的工作。

随着大数据的发展，多模态或多视图数据渐渐成为主流。由于不同的模态可以提供研究对象的不同属性，起到相辅相成的效果，因此在一系列的研究工作中，多模态信息的融合能够取得比单模态更好的性能表现。在处理多模态数据的过程中，深度神经网络可以很好地捕捉高维多媒体数据的非线性分布，从本质上深化了多模态深度特征空间的融合，已经成为了分析多模态数据的主流方法。

这篇论文提供了从浅到深空间的多模态数据分析领域的现有工作的概述，并指出这个领域未来研究的关键要素是多模式空间的协作、对抗性竞争和融合。

这篇论文可以帮助读者了解多模态数据分析的工作进展，并了解未来可行的研究方向。

如何参与到更多论文讨论学习中？

AI研习社论文讨论微信群，分别有【NLP论文讨论群】【CV论文讨论群】【强化学习讨论群】，未来将会更细分方向和内容，群里面可以分享你觉得不错的论文，可以和同学一起讨论论文复现结果等细节，欢迎大家加入并积极参与活跃！

扫码添加小助手微信，发送【XX论文】，如：强化学习论文，即可进入相关的论文讨论群。

Tags: 其他