技術界與翻譯界的交鋒:機器翻譯離我們還有多遠? | 清華AI Time
- 2019 年 10 月 4 日
- 筆記

大數據文摘出品
作者:劉俊寰
作為自然語言處理中一項非常重要的應用,現代意義上的機器翻譯概念從上世紀40年代提出至今,經過了幾代革新,現已初步實現了多場景的落地和應用。而近幾年隨著機器翻譯品質的提高,機器翻譯將代替人工翻譯的聲勢逐漸浩大起來,那麼機器翻譯對於人工翻譯而言是威脅還是可利用工具?在多大程度上機器翻譯又能幫助普通用戶呢?

在AI Time第六期的辯論中,中科院自動化研究所研究員宗成慶、北京外國語大學高級翻譯學院副院長李長栓、蘇州大學電腦學院副院長國家傑青張民、東北大學電腦學院教授朱靖波、清華大學電腦科學與技術系長聘副教授劉洋一起論道了機器翻譯的相關問題。

機器翻譯歷史
機器翻譯的歷史大體可以分為兩大階段,第一階段是從60年代到90年代初期,理性主義方法是主流,主要是讓人類專家觀察語言規律,把它描述成規則,讓機器按照既定規則進行翻譯。第二個階段是90年代,特別是互聯網出現以後,開始從事統計機器翻譯研究,此時數據以及相應的數據驅動方法得到蓬勃發展。
統計方法比較經典的模型叫做隱變數對數線性模型,它的特點是要設計特徵,X代表輸入,Y代表輸出,Z就代表中間的語言結構,通過定義各種特徵函數來訓練一個參數,很多工作都集中在如何設計好的特徵來描述翻譯規律上。
但語言太過複雜,窮盡人類智慧也很難把這個特徵設計全面,其中一個難點稱之為調序,比如「就中東局勢舉行了一個小時會談」,這是一個典型的介詞短語和動詞短語的組合,在中文中先說介詞短語,再說動詞短語,但在英文中都是反過來的。
2015年後,深度學習在機器翻譯得到應用。深度學習的主要意義在於它可以從數據中自動提取表示,就不需要像以前一樣設計特徵來描述翻譯規則,只需要設計一個網路,讓機器自動在數據去尋找表述,效果非常好。但還是有難解決的問題,它根本不知道數字是什麼意思,不知道為什麼出錯,不知道怎麼去改動它,而且很難控制。
目前最核心的技術叫做注意力機制,希望通過自動計算髮現中英文之間的相關性,這在整個深度學習里也是非常核心的技術。現在可以利用一些比較新的技術,這個是transformer,希望能夠處理更長的序列。

機器翻譯旨在彌補人類幹不了的場景
最近幾年出現了一系列機器翻譯應用,比如翻譯機、微信的翻譯服務。機器翻譯很大程度上是為解決不同國家、不同文化之間的溝通問題,如果機器翻譯能在一定程度上取代人、幫助人,溝通的信道會有一個巨大的釋放。那麼機器翻譯究竟能否代替人呢?
宗成慶老師認為,機器翻譯近幾年的進步很大,可以大幅提高翻譯效率,但是機器翻譯的運用需要基於場景和任務,機器翻譯在一些場景下確實能幫助人,比如旅遊問路,但是在某些領域,比如高層次的翻譯,要對機器翻譯寄予太多的希望還為時過早。

張民老師對宗老師的觀點表示贊同,他補充道,機器翻譯要從學術界和產業界兩個側面看。學術界一直可以做下去,產業界里機器翻譯已經蓬勃發展,產業對學術界技術需求強烈,技術達到了產業低端門坎,產業推動技術發展、技術服務行業。
李長栓老師也認為雖然機器翻譯進步驚人,但不會有取代人的一天,其主要原因在於機器翻譯品質還達不到專業翻譯的要求,單個句子能理解,但通篇沒有邏輯。
朱靖波老師同意宗老師和張老師的觀點,並舉例說,通常假設翻譯人員的結果完全正確,而技術想要超過100%去達到101%的正確率,這在真理上是無法超越的。
但是機器翻譯在大數據之後蓬勃發展,並非意在取代人類,比如國家知識產權里幾百萬個專利文檔,只能利用機器翻譯,非人工所為;再比如身在國外,人工翻譯不可能隨時在身邊,只能利用機器翻譯,這都不能算是代替人工翻譯,而是去彌補人工翻譯幹不了的應用場景。

是機器翻譯的問題,還是技術尚未成熟?
李長栓老師根據自己的使用經驗,歸納了一下機器翻譯中遇到的主要問題:
- 以句子為基礎翻譯,忽略上下文
中文長句子翻譯成英文,需要斷成幾句,但斷開之後,後面的句子就沒有主語了,這時候要補充主語。而機器翻譯根據什麼補充主語成迷。
- 同一個詞出現多個譯文版本
比如「訴裁程式」,機器翻譯給出了十幾個譯文版本,這個問題應該可以解決,但是神經網路翻譯似乎還沒有解決這個問題。
- 機械處理資訊
機器翻譯是依賴於形式的轉換,遇到歧義時是根據概率決定修飾關係;一詞多義也是,即便給了語料庫,但是在同一個專業領域,一個詞也有很多意思。

朱靖波老師對此表示部分贊同:
首先,目前基於句子級翻譯系統主要因為具體實現機制的問題,實際上學術界關於篇章級機器翻譯有不少研究工作。基於上下文分析主語省略和指代消解等問題,他更傾向於認為是理解問題而非翻譯問題,但可以將兩者結合起來實現更好的翻譯結果。
其次,有些問題應該分成兩個環節來考慮,比如原文錯誤,人會通過理解對其進行糾正錯誤後翻譯,但是對於機器翻譯來說,它認為這是用戶想要表達的意思,不能輕易自動修改原文,導致錯誤的翻譯。這就引出一點,機器翻譯是不是和別的技術融合在一起使用的效果更好。
最後,一詞多義跟結構歧義的問題是現在做得不夠好,不是機器翻譯沒有能力解決,機器翻譯建模的核心就是為了解決這兩個問題。
宗成慶老師指出,現在機器翻譯的基本假設是,只要收集到足夠多樣本就行。但這個假設是有問題的,第一,模型能否學成存疑,第二,不應該只基於樣本,還有日常生活經歷和常識等。現在的模型還不夠智慧,提供足夠的樣本也無法學成,這也是提出基於知識的機器翻譯的原因。
張民老師從學術界的角度分析了機器翻譯存在的兩個重大問題。一是篇章問題,翻譯本來應該根據上下文理解和邏輯分析,但目前機器翻譯建模方法都是句子對句子,在句子層面把翻譯看作是純數學映射,因此深度學習的方法如果遇上語料訓練缺失的情況急劇下降。二是知識和推理驅動,不僅僅是語言學知識,還包括常識知識、領域知識、世界知識等。

預訓練的提出與背景補充構想
劉洋老師舉了一個例子,有高翻在法國為了翻譯一本很厚的地鐵資料,坐了一周的法國地鐵,向乘務員詢問各種資訊,後來為核電站翻譯也是如此,要知道設備的用途,他認為翻譯的絕大功夫都是花在對背景知識的理解。
而反觀現在的機器翻譯,還是基於數據,沒有上升到知識。預訓練是一個非常不一樣的想法,在單語數據上設計相關問題的學習任務,這樣數據幾乎是無限的,然後在上面訓練模型。
過去一年,預訓練的方法基本刷榜了LP任務,普遍提升8-10個點。但是機器翻譯還沒有這麼好的效果,因為翻譯的輸出不是簡單的分類,而是整個序列,這個序列光輸出這個詞,就是指數級的數據,同時還要排准數據和階層,複雜度非常高。
預訓練和機器翻譯的結合是一個方向,如果提升到基於知識的翻譯系統,顯然是更好的策略。目前比較容易想到的是知識圖譜和機器翻譯結合,但這塊沒有突破性的進展。

李長栓老師也認為專業翻譯大部分時間是用來查資料的,他舉例,「某一個先生指出,索馬利亞沿海海島問題,聯絡小組鼓勵通過法律允許根據捕獲和釋放的做法進行起訴」,看 完之後不知所云,這就是機器翻譯的結果。
這種時候專業翻譯就會去查閱相關資料,明白之後再進行翻譯,「誰誰指出,鑒於一些國家存在先抓後放的做法,某小組鼓勵相關國家通過立法允許起訴」。翻譯是一個不斷調查、不斷獲取文字背後意思的過程,表達的過程是在理解基礎上自然形成的。
同時李長栓老師也提供了他對機器翻譯的優化思路,機器補充知識是機器的優勢,它有無窮無盡的語料,翻譯某一句話時就可以利用超鏈接等方式提供相關背景,這樣會更有助於翻譯的進行。

朱靖波老師根據自己的經驗列舉出好的機器翻譯系統需要的三個東西。一是擴大訓練數據規模,提高品質;二是不斷創新技術;三是根據問題不斷打磨,三者缺一不可。他把機器翻譯技術的概念擴大到兩個不同對象之間的等價轉換,並認為機器翻譯與人工智慧和NLP不同,機器翻譯是一個產業,機器翻譯+也是一個產業。
宗成慶老師認為雖然現在機器翻譯問題很多,但是不用悲觀,從研究角度講,只有發現問題才能改進問題,問題代表了進步空間。
機器翻譯的突破口在於產生新的範式
朱靖波老師認為未來機器翻譯的突破口在於產學研形成閉環,應用需求不斷推進機器翻譯理論和技術研究。
劉洋老師表示,必須要在範式上進行革新,要找到好的策略和方法,充分利用非標註數據。或者能把數據用好,或者能夠從未標註數據中提煉出知識,這兩點都非常關鍵。

李長栓老師認為,機器翻譯在中英文間的切換還是很困難,但是在新聞語言等領域,機器翻譯的品質已經很高。未來的突破還是要回歸到範式或者是思維方法的改變上來,從句子當中抓取意思,再重新表達,這是人做翻譯時的思維過程,未來機器翻譯也是這樣。
宗成慶老師補充道,高品質的機器翻譯結果並非一定要達到信達雅,那是人類翻譯的終極目標,目前在某些場景的翻譯結果已經很好,未來還需要解決更細節的問題。從某種意義上講,現在神經網路機器翻譯的性能已經接近天花板,未來一定是對翻譯模型進行改進和提高,從技術應用和產業發展的角度講,需要明確具體需求和任務,針對性地做定向開發,這是推動整個技術真正走向實用的比較可行的路線。
張民老師表示,機器翻譯本身既是一個科學問題,又是一個工程問題,未來想要突破,科學上的突破一定要從科學技術上,產生新的範式;工程上的突破一定要依賴知識,而知識需要在不同的領域、需要全人類來解決。
AI Time由一群關注人工智慧發展的青年人創辦,旨在發揚科學思辨精神,邀請各界人士對人工智慧理論、演算法、場景、應用的本質問題進行探索,展開辯論,碰撞思想,打造人工智慧知識分享的策源地和聚集地。大數據文摘作為合作媒體將長期合作報道。