实现混合语言的自动识别:乌克兰语和俄语的“混合体”Surzhyk

  • 2019 年 12 月 27 日
  • 笔记

原文题目: Towards an automatic recognition of mixed languages: The Ukrainian-Russian hybrid language Surzhyk

摘要: 语言干扰在当今的多语种社会中很常见,越来越多的语言在充满联系的社会中不断碰撞和接触,语言干扰是全球性带来的最终结果之一,导致了混合语言的产生。这些,加上对他们官方语言权力的怀疑,使得计算语言学领域出现了自动识别和待进一步阐述的问题。在这篇文章中,我们提出了一个首次尝试,以确定乌克兰语和俄语的混合语言Surzhyk的成分,通过采用程序设计语言R建立的基于实例的规则,我们展开了以下研究:1)分析Del Gaudio(2010)在乌克兰首都基辅地区注册的Surzhyk的口语样本,并创建书面语料库;2) 制定有关Surzhyk模式识别及其实施的特定规则;3)测试代码并分析其有效性。

原文作者:Nataliya Sira, Giorgio Maria Di Nunzio, Viviana Nosilia

原文地址:https://arxiv.org/abs/1912.08582