扩充数据的多级联模型能增强短文本中的复述检测(CS CompLang))

  • 2019 年 12 月 30 日
  • 筆記

原文题目: A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase Detection in Short Texts

摘要: 复述检测是文本分析中一项重要任务,它具有大量的应用,例如查重,重复问题识别和增强的客户支持服务。用于表示和分类复述的深层模型已经被提出了。但是,这些模型需要大量的人类标记数据,而这些数据的获取成本很高。在这项工作中,我们提出了一种数据扩充策略和多级联模型,用于改进短文本中的复述检测。我们的数据扩充策略将复述和非复述的概念视为文本集上的二进制关系。随后,它使用图论的概念以合理的方式有效地生成其他复述和非复述对。我们的多级模型采用了基于CNN和LSTM网络的三个监督特征学习器(级联),它们带有或不带有软注意力。然后将学习到的特征与手工制作的语言特征一起转发到鉴别器网络种以进行最终分类。我们的模型既广泛又深入,并且在纯净和嘈杂的短文本中都提供了更高的可靠性。我们在三个基准数据集上评估了我们的方法,并证明了它在这三个方面均具有可比的或最新的性能。

原文作者:Muhammad Haroon Shakeel, Asim Karim, Imdadullah Khan

原文地址:https://arxiv.org/abs/1912.12068