實現混合語言的自動識別:烏克蘭語和俄語的「混合體」Surzhyk

  • 2019 年 12 月 27 日
  • 筆記

原文題目: Towards an automatic recognition of mixed languages: The Ukrainian-Russian hybrid language Surzhyk

摘要: 語言干擾在當今的多語種社會中很常見,越來越多的語言在充滿聯繫的社會中不斷碰撞和接觸,語言干擾是全球性帶來的最終結果之一,導致了混合語言的產生。這些,加上對他們官方語言權力的懷疑,使得計算語言學領域出現了自動識別和待進一步闡述的問題。在這篇文章中,我們提出了一個首次嘗試,以確定烏克蘭語和俄語的混合語言Surzhyk的成分,通過採用程序設計語言R建立的基於實例的規則,我們展開了以下研究:1)分析Del Gaudio(2010)在烏克蘭首都基輔地區註冊的Surzhyk的口語樣本,並創建書面語料庫;2) 制定有關Surzhyk模式識別及其實施的特定規則;3)測試代碼並分析其有效性。

原文作者:Nataliya Sira, Giorgio Maria Di Nunzio, Viviana Nosilia

原文地址:https://arxiv.org/abs/1912.08582