沉痛哀悼俞士汶先生:助力漢語走入信息時代第一人

  • 2021 年 11 月 5 日
  • AI
作者 | 杏花

編輯 | 岑峰

AI科技評論獲悉,2021 年 11 月 4 日下午 5 時 9 分俞士汶先生因病在北京大學醫院逝世,享年 83 歲。

俞先生是我國最早從事語言信息處理、計算語言學研究的學者之一,是該領域的開路人,培養了一批卓越的語言學家和計算語言學家。

俞士汶先生,1938 年 12 月出生,安徽宣城人,北京大學信息科學技術學院教授。1957 年考入北京大學物理系,1958 年轉入數學力學系,1964 年畢業後留校。主要從事計算語言學研究,作為第一完成人的主要研究成果有以《現代漢語語法信息詞典》為基礎的綜合型語言知識庫。

俞士汶先生的學術生涯,始終與北大交織在一起。

當「家是最小國,國是千萬家」的歌聲唱響時,俞士汶先生最先想到的是北京大學。

俞先生曾說過,1957 年考入北大是他人生中最重要的選擇,在其日後人生中,他始終感謝北京大學提供的陽光雨露。

在工科統稱高等數學的課程,在北大分為數學分析、線性代數,表面上只是深淺不同,其實對人潛質的影響和能力的培養大不一樣,抽象、嚴謹的課程訓練增強了俞先生探求事物本質及其內在規律的慣性,懂得欣賞數學的形式美,追求邏輯思維的嚴密,認識到主觀的已知同客觀的未知相比,永遠是微不足道的,也對科學存有敬畏之心。做學問需要想像力,更需要實事求是的精神,來不得半點虛假。俞先生在北大早期受到的熏陶,對於日後科研實踐風格的形成產生了潛移默化的影響。

俞先生在北大的專業是計算數學,那時有計算數學專業的高校不止北大一所,但是有條件使用電子計算機的學校卻是少之又少。1963 年,俞先生上程序設計實習課時,可以到中國科學院計算技術研究所使用被稱為 103 機的電子計算機,那時的說法叫「上機」。103 機每秒可執行 2000 次定點運算(機內用二進制表示的數值只能在-1與+1之間),用穿孔紙帶輸入程序和數據,只允許少許的計算結果在很窄的紙上打印出來。當時俞先生用機器指令編了一個自動取比例因子(使計算過程中的所有數據自動保持在-1與+1之間)的求解常微分方程的程序,一次便通過了,程序沒有錯誤,計算結果正確。

俞先生曾表示,畢業生後能夠留在北大工作非常幸運。1958年,北大自主研製每秒一萬次定點運算的電子管計算機,稱之為「紅旗機」。受元器件品質和工藝水平的限制,機器極不穩定。1964年,俞先生和同事們編製了驗證「紅旗機」各條指令功能的檢查程序,晝夜輪班,抓住機器穩定的短暫時段,運行檢查程序,終於多次完整通過,證明了「紅旗機」指令系統的邏輯正確性。此外,俞先生還參與了很多其他系統軟件的研製和維護工作:

  • 1970—1973年,參加了全國第一台百萬次集成電路計算機多道程序操作系統的研製。

  • 1973—1978年,從事 6912 計算機及其高級程序設計語言的維護推廣工作,編寫了兩本講義,鉛印發行了2000冊。

  • 1978—1985年,參加計算機-激光漢字照排系統分時操作系統的研製。

通過總結這些系統軟件的研製和維護經驗,同時發揮長期積累的理論優勢,俞先生作為第二作者,與楊芙清院士合著了《操作系統結構分析》(北京大學出版社 1986 年出版)一書。

1986年選擇計算語言學作為新的研究方向,是俞先生事業的一個轉折點。同年,北京大學計算語言學研究所成立,俞先生是最早的成員之一。30 多年前,計算語言學在中國還是一個相對生僻的技術術語。那時個人計算機正在普及,社會信息化浪潮湧動,中文信息處理開始了上規模的研究。時任北大副校長、著名語言學家朱德熙先生等幾位北大學者一方面認識到語言學和信息技術的結合一定能為社會急需的中文信息處理技術發展作出貢獻,另一方面又看到北大文理結合的天然優勢。有了這一新機遇,北大初創了計算語言學研究所(下稱計算語言所)。

研究所成立後,俞先生及其團隊成員以發展計算語言學的基礎研究和應用基礎研究作為使命,並思考如何趕上國際前沿。俞先生團隊將建設漢語信息處理基礎設施作為工作重心,優先研製包含漢語詞彙、句法、語義知識的機器詞典。之所以做出這樣的決策,是因為他們意識到,模型可以借鑒,算法可以學習,系統構建經驗可以吸取,唯有自然語言處理系統不可或缺的中文語言知識庫是不可能假手於人的。況且漢語的根在中國,計算語言所團隊有着建設中文語言知識庫得天獨厚的優勢。

計算語言所的第一任所長是馬希文教授(在即將出版的《中國人工智能簡史》中,馬希文教授對計算語言學的早期推動是其中的重要章節)。馬希文教授 1990 年出國後,俞士汶先生接過了計算語言所的重擔,制訂了計算語言所語言信息化的方向,並爭取到了朱德熙、楊芙清等學術帶頭人及不同院系的支持,為計算語言所的發展壯大奠定了基礎。

為了支持基礎研究,俞先生及其團隊成員積極申請各類科研項目,包括應用軟件的研發。在國家「七五」計劃期間(1986—1990),朱德熙領銜承擔了國家社會科學重點科研項目「現代漢語詞類」,這一歸屬於中國語言文學系。得益於楊芙清的推薦和支持,俞先生第一次承擔了國家科技攻關項目,歸屬於計算語言所,其中有一個子項目是「現代漢語詞語語法信息庫」。俞先生的團隊響應朱德熙的倡議,將這兩個項目結合到一起,計算語言所和中文系組成聯合課題組,協同攻關。團隊成員聯合攻關取得的成果就是後來發展並定名為《現代漢語語法信息詞典》的雛形。

俞士汶先生獲國家科技進步二等獎(圖源:北京大學新聞網)

經過 20 多年的努力和積累,自 2007 年至 2016 年,以《現代漢語語法信息詞典》為基礎的「綜合型語言知識庫」獲得政府部門、全國性學術團體和北京大學共計 10 項獎勵,其中以 2011 年獲得中國國家科學技術進步獎二等獎為最高榮譽。還有一項也值得一提,俞先生本人於 2011 年獲得中國中文信息學會成立 30 周年首次頒發的終身成就獎。

在頒獎大會上,俞先生只說了兩句感言:「感謝小集體——北大計算語言所同人的共同努力,感謝大集體——中文信息處理學界先進的鼎力支持。」

在綜合型語言知識庫獲獎時,俞先生的一位老朋友曾祝賀他:「你畫上了一個圓滿的句號。」不過,俞先生表示,他希望自己的人生一直是逗號,承上啟下,最後是個省略號。退休後的俞先生也沒有過上栽花弄草的生活,仍主持或參加國家級重要科研項目(如「973項目」),現在是國家自然科學基金項目「漢語抽象意義表示關鍵技術研究」的項目組成員。

自 2005年1月到 2018年12月的14年間,俞先生正式發表了35篇學術論文,共計38萬餘字。俞先生將自己現在所做的一些事情比作拾麥穗,雖然沒有重要的創新,過程與收穫卻延緩了自己的心理衰老。當然,俞先生也知道,總有一天,他不能再繼續自己所喜愛的研究,一定還有來不及完成的工作……

俞先生一生業績卓著,包括而不限於:

  • 2011年度國家科技進步獎二等獎:「綜合型語言知識庫」;

  • 2007年度教育部科技進步一等獎,教育部:「綜合型語言知識庫」,排名第一;

  • 2007年第四屆中國科協期刊優秀學術論文獎:北京大學現代漢語語料庫基本加工規範,中文信息學報,2002年第5、6期;

  • 2004年北京大學楊芙清王陽元院士獎教金:教學科研獎;

  • 1998年度教育部科技進步二等獎:現代漢語語法信息詞典,排名第一;

  • 1994年北大-君安科學家獎

  • 1993年起-因對我國高等教育事業作出了突出貢獻,享有國務院特殊津貼。

  • 1993年國家教委科技進步三等獎;

  • 1992年國家教委機器翻譯譯文質量評估軟件,排名第一;

  • 1991年中國機電部日漢機器翻譯系統,排名第五;

  • 1991年國家計委、科委「七五」攻關項目突出貢獻;

  • 1985年對計算機-激光漢字照排系統的重要貢獻

  • 北京大學科技成果二等獎2項及三等獎1項

先生的座右銘是「路漫漫其修遠兮,吾將上下而求索」。

斯人已去,但精神永存。俞先生走好!老一代學者的風骨,吾輩當以行動繼承。

參考鏈接://icl.pku.edu.cn/cy/ysw/jl/index.htm

雷鋒網雷鋒網