本周Paper推荐丨微软联合浙大提出FastSpeech2、哈工大赛尔实验室基于融合大规模异构信息的图卷积网络的一种推荐系统框架

  • 2020 年 7 月 2 日
  • AI

.

  推荐目录

FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2

CoSDA-ML:零样本跨语言NLP学习下的多语言编码转换数据增强丨IJCAI 2020

IntentGC: 基于融合大规模异构信息的图卷积网络的一种推荐系统框架

时空混合图卷积网络:利用导航数据改善交通预测

HAttMatting,让抠图变得如此简单!

  FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2

论文名称:FastSpeech 2: Fast and High-Quality End-to-End Text to Speech

作者:  Ren Yi /Hu Chenxu /Tan Xu /Qin Tao /Zhao Sheng /Zhao Zhou /Liu Tie-Yan

发表时间:2020/6/8

论文链接://arxiv.org/abs/2006.04558

推荐原因

近年来,以 FastSpeech 为代表的非自回归语音合成(Text to Speech, TTS)模型相比传统的自回归模型(如 Tacotron 2)能极大提升合成速度,提升语音鲁棒性(减少重复吐词、漏词等问题)与可控性(控制速率和韵律),同时达到相匹配的语音合成质量。但是,FastSpeech 还面临以下几点问题:

  • FastSpeech 依赖 Teacher-Student 的知识蒸馏框架,训练流程比较复杂;

  • 由于知识蒸馏,FastSpeech 的训练目标相比真实语音存在信息损失,同时从 Teacher 模型获得的时长(Duration)信息不够准确,两者都会影响合成语音质量。

为了解决上述问题,微软亚洲研究院和微软 Azure 语音团队联合浙江大学提出了FastSpeech 的改进版 FastSpeech 2,它抛弃了 Teacher-Student 知识蒸馏框架降低训练复杂度,直接用真实的语音数据作为训练目标避免信息损失,同时引入了更精确的时长信息和语音中的其它可变信息(包括音高(Pitch)和音量(Energy)等)来提高合成的语音质量。基于 FastSpeech 2,我们还提出了加强版 FastSpeech 2s 以支持完全端到端的从文本到语音波形的合成,省略了梅尔频谱的生成过程。实验结果表明,FastSpeech 2 和 2s 在语音质量方面优于 FastSpeech,同时大大简化了训练流程减少了训练时间,还加快了合成的速度。

语音合成质量 MOS 测试

FastSpeech 2 和 2s 的样例音频网址已经公开在:

//speechresearch.github.io/fastspeech2/

  CoSDA-ML:零样本跨语言NLP学习下的多语言编码转换数据增强丨IJCAI 2020

论文名称:CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot Cross-Lingual NLP

作者:  Qin Libo /Ni Minheng /Zhang Yue /Che Wanxiang

发表时间:2020/6/11

论文链接://arxiv.org/abs/2006.06402

推荐原因

这篇论文来自西湖大学张岳老师和哈工大赛尔实验室车万翔老师组,目前该工作已经被 IJCAI 2020收录。

多语言上下文词向量,例如多语言BERT(mBERT),已经在多种zero-shot跨语言任务中取得了成功。但是,这些模型在不同语言的上下文表示仍然是不一致的。现有的工作通过学习双语投射矩阵或者用微调技术去解决这个问题。

作者提出了一个数据增强框架用来生成多语言code-switch数据, 对mBERT进行微调,从而鼓励模型一次对齐源语言和所有目标语言的词向量表示空间。并且,与现有工作相比,作者提出的方法不但不依赖于双语句进行训练,而且只需要一次训练,就能运用到多个目标语言。

在5个任务19个语言上进行了实验,与mBERT相比,作者提出的方法有显著的提高,并且数据增强方法在XLM模型上也取得了显著的提升。


  IntentGC: 基于融合大规模异构信息的图卷积网络的一种推荐系统框架

论文名称:IntentGC: a Scalable Graph Convolution Framework Fusing Heterogeneous Information for Recommendation

作者:Jun Zhao / Zhou Zhou / Ziyu Guan / Wei Zhao / Wei Ning / Guang Qiu / Xiaofei He

发表时间:2019/7/24

论文链接://arxiv.org/abs/1907.12377

推荐原因

  1. 本文是阿里巴巴的一篇关于推荐系统的论文,采用的数据集为未公开的淘宝用户行为数据,以及公开的亚马逊用户评分数据

  2. 作者从三个角度探讨了如何有效地利用大规模异构关系信息构建图卷积网络并得到更为丰富的用户与推荐物品的表征,从而提高推荐系统模型效果。引入异构信息方面,采用二阶邻接(second-order proximity)关系作为边来提取用户、推荐物品以及其他节点(other node)的关系,并生成异构信息图(Heterogeneous Information Network);与普通的卷积运算不一样的是,作者为了提高计算效率,从减少不必要的信息交互(乘积运算)的角度出发,仅考虑图中节点作为一个整体与邻接节点整体信息进行交互,并且从相关物品的不相关属性的对比给出了原理解释;为了得到更加丰富的用户与推荐物品表征,用户与推荐物品分别由独立的模型来进行预训练,以此为基础,采样更具有困惑性的负样本组成三元组,进行进一步的训练

  3. 此外,文章附录提供了非常详细的复现参考

   混合时空图卷积网络:更精准的时空预测模型

论文名称:Hybrid Spatio-Temporal Graph Convolutional Network: Improving Traffic Prediction with Navigation Data

作者:Dai Rui /Xu Shenkun /Gu Qian /Ji Chenguang /Liu Kaikui

发表时间:2020/6/23

论文链接://arxiv.org/abs/2006.12715

推荐原因

这篇论文来自于高德的机器学习团队,已经被收录到KDD 2020。

在以往应用图卷积网络模型进行交通预测的工作的基础上,这篇论文创造性地将导航数据中的用户出行意图加入到了预测模型中。导航规划数据能够较为全面地反应正在发生的通行需求,并且可以用于判断拥堵的发生。这篇论文利用图卷积结构提取空间依赖性特征,并在以往工作的基础上设计了一种新的邻接矩阵来更好地体现路段间的交通邻近性。实验数据集上的结果表明这篇论文提出的新模型在各项指标上均显著优于不同的基准模型,在突发拥堵的预测方面优势尤为明显。

混合时空图卷积网络提供了一种将物理知识嵌入数据驱动模型的新范式,创新性地应用了复合邻接矩阵和域转换器结构,很容易推广到一般的时空预测任务当中,未来将在智能交通管理等领域发挥重要作用。

   HAttMatting,让抠图变得如此简单!

论文名称:Attention-Guided Hierarchical Structure Aggregation for Image Matting

作者:Yu Qiao、Yuhao Liu、Xin Yang、Dongsheng Zhou、Mingliang Xu、Qiang Zhang、Xiaopeng Wei

发表时间:2020/6/14

论文链接://openaccess.thecvf.com/content_CVPR_2020/papers/Qiao_Attention-Guided_Hierarchical_Structure_Aggregation_for_Image_Matting_CVPR_2020_paper.pdf

项目地址:

  1. //xinyangdut.github.io/matting/Matting.html 

  2. //wukaoliu.github.io/HAttMatting/

推荐原因

此论文已经被 CVPR 2020 收录,论文作者来自大连理工大学、大连大学、郑州大学,提出了一种端到端的层级注意力 Matting 网络,简称为 HAttMatting,它可以在没有额外输入的情况下从单个 RGB 图像中预测更好的 alpha matte 结构。

图像抠图本身是一个病态的问题,公式如下所示:

给定一张RGB的彩色图 1,要求得一张表示像素不透明度的Alpha Matte,可见其约束度是远远不够的。通常情况,在求解该问题的时候是借助于Scribble或者Trimap的方式来增加一些辅助的约束信息,以基于Trimap的方法为例,

其白色表示确切的前景信息,黑色表示明确的背景信息。中间的灰色区域便是留给算法去求解的未知区域。尽管说这种方式对于求解可以大大提升精度,但确需要消耗很大的人力去标注一张高质量的Trimap。

课题组针对这一痛点,提出了注意力机制引导的层级结构融合的图像抠图方法。具体来说,研究者部署空间和通道级注意力,进而以一种新颖方式来整合外观线索和金字塔形特征。

另外,研究者创建了一个包含 59600 张训练图像和 1000 张测试图像(共计 646 个不同的前景 Alpha Matte)的大规模图像 Matting 数据集,从而可以进一步提升层级结构聚合模型的鲁棒性。实验表明,本研究提出的 HAttMatting 网络可以捕获复杂的前景结构,并且在单张 RGB 图像作为输入时实现了当前 SOTA 性能。

如何参与到更多论文讨论学习中?

AI研习社论文讨论微信群,分别有【NLP论文讨论群】【CV论文讨论群】【强化学习讨论群】,未来将会更细分方向和内容,群里面可以分享你觉得不错的论文,可以和同学一起讨论论文复现结果等细节,欢迎大家加入并积极参与活跃!

扫码添加小助手微信,发送【XX论文】,如:强化学习论文,即可进入相关的论文讨论群。