機器翻譯都發展60年了,Google為什麼還把「卡頓」翻譯成 Fast (上)

  • 2019 年 12 月 1 日
  • 筆記

雖然 Google Translate 已經發布了近 15 年了,但直到現在 Google Translate 仍然倔強地認為 Android phone is very fast.

最近 GT 的重大更新是 2016年開始採用神經機器翻譯(GNMT)的系統,它包括8個編碼器和8個解碼器,用於9種語言的翻譯。

他們不僅把句子分開,而且還把單詞分開,這也是他們如何處理一個罕見單詞的做法。當單詞不在字典里時,NMT是沒有參考的。比如翻譯一個字母組 「Vas3k」,在這種情況下,GMNT試圖將單詞拆分為單詞塊並恢復它們的翻譯。

但依舊無法解釋為什麼把「卡頓」翻譯成「very fast」,而且當這個翻譯成為中國工程師們這幾天廣為傳頌的笑料後,Google 引以為傲的眾包糾錯仍沒有成功干預這個錯誤翻譯。

正因為這個小笑話,讓我們想要開始研究機器翻譯。本篇文章將對機器翻譯這六十多年來的發展進行梳理,包括基於規則的機器翻譯(RBMT)、基於實例的機器翻譯(EBMT)、統計機器翻譯(SMT)、神經機器翻譯(NMT)等主流方法,以及 Google、Yandex 等廠商的領先演算法進行分析。

您正在閱讀的正是這篇系列文章的上半部分,《機器翻譯的 1933-1984》。

進展緩慢的前四十年

機器翻譯最開始出現於 1933 年,也就是冷戰時期。

當時蘇聯科學家 Peter Troyanskii 在蘇聯科學院提出了「開發一種可以用於語言翻譯,並能夠列印文字的機器用」。這台機器的構造非常簡單——只有四種不同語言的卡片和一台打字機,及一部老派電影攝影機。

操作員從文本中取出第一個單詞,找到相應的卡片,拍下照片,並在打字機上鍵入其形態特徵(名詞、複數、屬格等)。打字機根據其中某些特徵進行翻譯,並通過磁帶和照相機的膠捲來呈現。

即便它能進行簡單的翻譯,但在當時仍被認作是一項「無用的」發明。可惜的是,Troyanskii 為這項發明耗費了 20 年光陰,最終死於心絞痛,這項發明也隨之告終。在 1965 年兩明蘇聯科學家發現這個機器之前,世界上幾乎沒人知道它的存在。

1954 年 1 月 7 日,也就是冷戰開始初期,在紐約 IBM 總部出現了歷史上第一台真正意義上的翻譯機——IBM701,它將 60 個俄語句子成功翻譯成英文,這就是著名的喬治城——IBM 實驗。

但是,完美的噱頭是為了掩蓋了一個小細節。沒有人提到翻譯的例子經過仔細挑選和測試,以排除任何歧義。對於日常使用,這個系統不比一本快速翻譯手冊好。

即便如此,現代自然語言處理的基礎仍是由包括美國在內的科學家們,通過不斷嘗試、研究和發展所創造的。今天所有的搜索引擎,垃圾郵件過濾器,以及個人助理的出現也是基於此。

基於規則的機器翻譯(RBMT)

圍繞基於規則的機器翻譯這個想法最早出現在 70年代,科學家們仔細觀察譯員的工作,試圖迫使電腦重複這些動作。這些系統包括:

  • 雙語詞典(RU -> EN)
  • 每一種語言的一套語言規則(例如以某些後綴為後綴的名詞,如-heit,、-keit、 -ung等),也就是詞根詞性。

如果需要的話,系統還可以添加一些技巧,比如名稱列表、拼寫校正器和音譯程式。

PROMPT 和Systran是RBMT系統中最著名的例子,即便他們也有一些細微差別和亞種。

  • 機器直接翻譯

這是最直接的機器翻譯類型。它將文本中的文字進行逐個翻譯,並稍微糾正其形態,以及協調語法使整個段落看起來翻譯的更準確。至於而這些修改規則,均是由專業的語言學家設定。

不過,這些翻譯規則有時候會失效,而且翻譯的很糟糕。雖然現代系統根本不使用這種規則,但卻深受現代語言學家的喜愛。

  • 基於語法結構的機器翻譯

與直譯相比,我們先確定句子的語法結構,就像我們在學校老師教的那樣。然後我們分析整個結構,而不是個別單詞,這在理論上有助於在翻譯中獲得相當好的詞序轉換。

但在實踐中,這種方法仍存在局限。一方面,它簡化了一般的語法規則,但另一方面,由於詞語結構的增多與單字相比,它的翻譯變得更加複雜。

  • 中介語的機器翻譯

在此方法中,源文本被轉換為中間表示,並統一於所有世界語(interlingua)。它與笛卡爾所夢想的一樣:一種元語言,它遵循通用規則,將翻譯轉換成簡單的「來回」任務。這可以使 interlingua 能夠轉換任何目標語言。

由於這種轉換,Interlingua 經常與基於轉移的元語言系統相混淆。不同之處在於,語言規則是針對每一種語言和語言的,而不是語言對。這意味著,我們可以向 interlingua 系統添加第三種語言,並在三者之間進行轉換,而這在基於語法結構的翻譯系統中很難實現。

它看起來很完美,但在現實生活中卻並非如此。創造這種中間語是極其困難的——許多科學家一生都在研究它。雖然他們沒有獲得巨大成功,但是多虧了他們,我們現在有了形態學,句法,甚至語義層次的表徵。

不過,RBMT 也有優點,比如它的形態學準確性(它不會混淆單詞)、結果的再現性(所有譯者都得到相同的結果),以及將其調到主題領域的能力(例如,教經濟學家或工程界的術語)。

即使有人成功地創造出了一個理想的 RBMT,且不斷有語言學家用所有的拼寫規則來增強它,但總會有一些例外是它不能應對的。比如英語中的不規則動詞、德語中的可分前綴、俄語中的後綴,以及人們用不同的表達方式等。

如果要對這些細微的差別進行補充修復,所耗費的成本是非常龐大的。不要忘了同音異義詞,即同一個詞在不同的語境中可以有不同的意思,這就導致同一句話可能存在許多種翻譯。比如,當我說「我看見一個人在山上用望遠鏡」時,你覺得這裡面會包含多少中含義呢?

語言並不是基於一套固定的規則來發展的——這是語言學家們喜歡的一個事實。而冷戰的 40 年,雖然機器翻譯在發展,但並未找到一個明確的解決辦法來提高翻譯的精度和便捷性。

所以,RBMT 早就涼涼了。

基於實例的機器翻譯(EBMT)

到了上世紀八十年代,為了在即將到來的全球化中,儘快站穩腳跟,很少有人懂英文的日本迫切需要機器翻譯。在國家政策大力支援下,日本成為當時對機器翻譯最具興趣的國家。

由於基於規則的機器翻譯(RBMT)很難進行英日翻譯,因為翻譯過程幾乎要將所有的單詞重新排列,而且還涉及到新的單詞,這迫使日本必須尋求新的翻譯思路。

於是,1984年,京都大學的Makoto Nagao提出了用現成的短語代替重複翻譯的想法,也就是所謂基於實例的機器翻譯(EBMT)。輸入的案例越多,翻譯也就越快越準確。

EBMT這個想法的出現,就像一顆火種點燃了科學家們的創新靈感,這對機器翻譯的發展極具意義,雖然它還談不上革命性的創舉。但在5年之後,極具革命意義的統計翻譯將基於此出現。

下篇預告

  • 統計機器翻譯(SMT)主導的 1990s-2000s 機器翻譯時代;
  • 神經機器翻譯(NMT)在 2015 年終於粉墨登場;
  • Google 與 Yandex 的高級玩法;