擴充數據的多級聯模型能增強短文本中的複述檢測(CS CompLang))

  • 2019 年 12 月 30 日
  • 筆記

原文題目: A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase Detection in Short Texts

摘要: 複述檢測是文本分析中一項重要任務,它具有大量的應用,例如查重,重複問題識別和增強的客戶支持服務。用於表示和分類複述的深層模型已經被提出了。但是,這些模型需要大量的人類標記數據,而這些數據的獲取成本很高。在這項工作中,我們提出了一種數據擴充策略和多級聯模型,用於改進短文本中的複述檢測。我們的數據擴充策略將複述和非複述的概念視為文本集上的二進制關係。隨後,它使用圖論的概念以合理的方式有效地生成其他複述和非複述對。我們的多級模型採用了基於CNN和LSTM網絡的三個監督特徵學習器(級聯),它們帶有或不帶有軟注意力。然後將學習到的特徵與手工製作的語言特徵一起轉發到鑒別器網絡種以進行最終分類。我們的模型既廣泛又深入,並且在純凈和嘈雜的短文本中都提供了更高的可靠性。我們在三個基準數據集上評估了我們的方法,並證明了它在這三個方面均具有可比的或最新的性能。

原文作者:Muhammad Haroon Shakeel, Asim Karim, Imdadullah Khan

原文地址:https://arxiv.org/abs/1912.12068