MIT教授Regina Barzilay:用機器學習扼住命運的喉嚨

  • 2020 年 6 月 22 日
  • AI

與5點陣圖靈獎得主和100多位專家

共同探討人工智慧的下一個十年
北京智源大會倒計時:2

只有大膽求真的學者,才敢於在四十歲的年齡,在業已成名之際,開啟一個完全陌生的研究方向。
 
MIT 教授 Regina Barzilay 便是這樣的學者。
 
2014年,43歲的她開啟了學術的第二生命。作為自然語言處理學者,Regina Barzilay在自動文摘生成、古語言解析等方面享有盛譽。然而在這一年,她卻被告知己罹患了乳腺癌。正當事業輝煌,卻遭此噩運,Barzilay經歷了一段極為暗淡的時光,隨後她重拾勇氣,向癌症進軍年之後,Regina Barzilay 已然成為智慧醫療領域的領軍人物。
         智源.jpg
二排左四。6月22日,MIT 教授 Regina Barzilay 將作為特邀嘉賓在第二屆智源大會做主題報告《Learning Molecular Representation》。長按圖片免費報名
 

    

一、 NLP 巔峰之路

Regina Barzilay,以色列裔美國人,本、碩畢業於以色列 本-古里安大學,隨後前往哥倫比亞大學讀博,師從著名NLP學者Kathleen McKeown。
 
Kathleen 是哥大歷史上首位女性電腦系主任,其導師為ACL終身成就獎獲得者Aravind Joshi。
 
來到哥大後,Barzilay 選擇了自動文本摘要的研究方向。自動文本摘要的歷史可以追溯到上世紀 50 年代。然而直到上世紀90年代,基於統計的機器學習方法在NLP領域得到廣泛應用後,自動文本摘要的研究才真正興盛起來。
 
1997年,Barzilay在ACL上發表了自己的第一篇論文《使用辭彙鏈進行文本摘要》,這篇論文提出了一種摘要融合的技術,這種技術不需要完整語義解釋,而是依賴從詞法鏈衍生的文本主題發展模型。這奠定了她在隨後多年的研究方向,也引導著她逐步成為該領域的領軍人物。

 
2001年,911事件的發生讓Kathleen 和Barzilay產生了將研究應用於實際環境的念頭。在當時,幾乎所有的媒體都在關注恐怖襲擊的事件,每天產生大量新聞,但是追根溯源,會發現這些新聞內容大同小異,對於讀者,不得不從大量新聞中獲取資訊。在Kathleen的支援下(此時Barzilay還是博士生),Barzilay啟動了一個新的項目,稱為 Newsblaster。這個項目試圖將多個在線新聞源的內容進行融合,並生成簡潔的摘要,從而減少新聞冗餘。Newsblaster 從各種資訊源(例如Yahoo、CNN、路透社、華盛頓郵報、今日美國、有線新聞等)尋找相似主題,針對每一個主題,Newsblaster 會在摘要中生成一個句子,並根據解析找出重複短語,然後通過剪切、粘貼等方式,生成該主題新聞事件的摘要。其準確性很高,根據用戶調查,其中88%的新聞摘要被認為是可以接受的。
 
2003年,Regina Barzilay在其博士論文《Information Fusion for Multidocument Summarization: Paraphrasing and Generation》中對這些研究進展做了全面總結,這也成為多文檔自動摘要的基石。
 
博士畢業後,Regina Barzilay去到康奈爾大學,做了為期一年的博士後研究員,隨後加入MIT。在此期間,除了繼續在文本摘要方面發力外,在計算語言學領域,Barzilay 也創造了一種演算法,可以從常用語言(例如英語)中學習注釋,從而分析人們理解較少的語言。
次年,Barzilay 便獲得了NAACL 2004的最佳論文獎,並於同年入選「2004年科技研究進展榜」;2005年,獲得NSF事業獎,同年入選「MIT TR 35」;2006年,又獲得IEEE智慧系統的「AI Ten to Watch」、微軟研究獎、Ross 事業發展教授獎等。
作為一名冉冉升起的新星,Regina 在NLP領域逐漸成為備受關注的焦點人物。
隨後,Regina 又先後獲得了ACL 2009、SLT 2010、EMNLP2016 的最佳論文獎,NAACL 2014 的最佳學生論文獎,EMNLP 2015的最佳論文提名獎。拿獎拿到手軟,此之謂也。但凡資深一些的 NLP 研究者,誰人不識 Barzilay。
                

二、罹患乳腺癌

一個人可能一條直線、沒有波瀾地走完一生,也有一些人人到中年卻迎來第二次生命——直面生死之後的重生。
 
2014年,Barzilay仍繼續著往年十多篇高峰會/頂刊論文的節奏,甚至還獲得了NAACL 2014 的最佳學生論文獎。
 
然而,43歲的 Barzilay 迎來了一個晴天霹靂:她被確診患有乳腺癌。
「我當時已經43歲,但卻是人生中第一次意識到我會死去。」
 
Barzilay 拿著診斷通知單,走回MIT,走回家裡。像所有類似情景中的人一樣,她有一種不真實的感覺,懷疑會不會出現了誤診,也抱怨為什麼這種事情偏偏出現在自己身上。
 

陰霾籠罩著這位正處於研究巔峰時期的NLP學者,看著實驗室的忙忙碌碌,卻無心工作,她常常不知道自己身處何方。那種感覺,突然覺得自己距離這個世界如此遙遠。
站在世界的彼岸去反觀世界,站在人生的終點去反觀人生。如果人有兩次生命的話,那麼第一次生命是站在生的起點充滿期待,而第二次則是站在生的終點重估一切。
在MIT實驗室里,Barzilay看到忙碌的學生們。
「OK,他們真的想寫論文,這是他們的工作,他們需要繼續做他們的事情,這很棒。」
在醫院或加入的各種病友圈,Barzilay看到許多病友們或悲觀或樂觀的生活,他們有的在愁苦終日,有的在放聲大笑。
「然而,對我來說,真正重要的事情是什麼呢?」
她回顧了自己十多年的科研歲月,設想了自己接下來可能的生活。
 
「在有限的生命里,我們應當充分利用我們擁有的才華,把它們轉化為有用的東西。」
 
在後來回顧自己的這段經歷時,Barzilay提到,當時的她正如十幾年前初次站在科學的殿堂面前一樣,迷茫,她不知道自己接下來要做什麼。
面對生活種種困厄,依然能「扼住命運的喉嚨」者,為英雄。Regina Barzilay 無疑是這類英雄。
這時有一個契機。對比Barzilay在 2012 年和 2013 年的乳腺X射線照片,專業的醫生根本看不出任何問題;然而到2014年,她的乳腺X射線照片中卻「突然」出現了癌細胞。她明白,這種「突然」並非突然,而是因為過於細微,人眼無法分辨;作為一名電腦專家,特別是人工智慧專家,Barzilay設想:是否可以用機器學習的方法來提前檢測出癌症的發生呢?
所謂「上醫醫未病」,如果能夠提前幾年,在治癒率較高的早期階段檢測出癌症的徵兆,或許能夠讓更多人免遭癌症之苦。
機器善於做出預測——「為什麼不把所有關於乳腺癌患者的資訊都扔進模型中呢?” 

       

     

三、利用機器學習檢測乳腺癌

用機器學習技術做癌症檢測,現在已經屢見不鮮。然而在2014年,卻還是新的事物。
從沮喪情緒中走出的 Regina Barzilay 開始雄心勃勃地致力於癌症檢測的革命性努力,她依靠的是在腫瘤學界基本未被認可的,但對她來說卻非常熟悉的工具:機器學習。
 
正如應用機器學習的其他領域,數據(特別是好的數據)至關重要。
 
Barzilay 找到了馬薩諸塞州綜合醫院乳腺成像科主任Constance Lehman、Avon綜合乳腺評估中心聯合主任 Kevin Hughes、乳腺放射腫瘤科主任  Taghian Alphonse。
Barzilay 擅長的領域是NLP。她以及她的學生利用NLP技術,從醫院提供的108000份臨床報告中提取了關鍵資訊,並創建了一個準確率在98%以上的數據集。
在此基礎上,Barzilay聯合 Lehman 等人開發了一套基於「隨機森林分類器(random-forest classifier)」的機器學習模型,並使用600個病患數據進行訓練,在綜合家族遺傳史、人口統計、以及過往的組織活檢和病理報告等資訊之後,該模型對 335 個數據(最終升級為癌症的病患)進行測試,結果診斷乳腺癌的準確率達到97%,而傳統方法只有79%。
 
這項研究結果表明:將機器學習模型引入常規診斷,超過30%的良性病灶切除術是可以避免的。
 
而另一方面,該技術的工作速度比人工檢查快100倍——醫生需要50-70個小時來分析50名乳腺癌患者,而該使用機器學習方法只需要30分鐘。
 
2016年,Regina Barzilay等人發布了利用機器學習分析乳腺癌的權威報告《Using Machine Learning to Parse Breast Pathology Reports》,這份報告奠定了Barzilay在智慧醫療領域的地位。
 
相關的研究仍在繼續,Barzilay的傳奇仍在繼續。
 
2017年,獲得麥克阿瑟獎;(這個獎項還有另一個說法,即「天才獎」,獎勵那些做出巨大創新的人)
 
2017年,入選ACL Fellow;
 
2018年,入選AAAI Fellow;
 
2019年,入選「藥物發現和先進醫療領域 Top 100 的 AI 領導者「。
 
……
              

四、使命  

Barzilay 的研究並非僅僅局限於乳腺癌檢測。
 
NLP 研究仍在繼續,延續往年,每年仍有十多篇高峰會論文。2015年獲得EMNLP最佳論文提名獎,2016年則獲得 EMNLP 最佳論文獎;最近,他們更提出了一種自動破譯已消失語言的神經方法,正確翻譯率達到67.3%。 
 
此外,從癌症檢測出發,Barzilay也逐漸過渡到藥物發現領域,今年 2月份她在Cell上發表了封面文章《A Deep Learning Approach to Antibiotic Discovery》,類似於之前向癌症檢測進軍的總結,這篇文章也是Barzilay教授向藥物發現領域進軍的盤點。
 
Barzilay 與 Tommi Jaakkola 等人合作 MIT 6.036 (機器學習入門)也曾火爆全網,成為入門人工智慧的「必修課」之一。
 
在接受MIT知名學者 Lex Fridman 的採訪中,Regina提到:
 
我們每個人都有自己認為最重要的事情,然而現實中我們卻忙於實現各種各樣的目標,忙於傾聽他人的聲音,努力成為人群中的一部分,卻很少有時間去正視自己的那一部分。 
我們應該抽出一些時間來了解我們自己的個人任務。我們要確保,即使在同時處理一萬件事情,也要把所有的資源投入到自己使命的實現上。 
回顧我自己的過往。在我年輕時,我的大部分任務都是受外部刺激而做的;而現在,我要為我的使命負責。但不管是哪種方式,對我而言,最重要的是忠實於我認為對的事情。 
  

參考資料:

[1]//people.csail.mit.edu/regina/
[2]MIT教授罹患乳腺癌,用NLP甄別患者胸前「定時炸彈」, 
//www.leiphone.com/news/201702/p8v6bxeqe99bKlie.html
[3]Putting data in the hands of doctors,//news.mit.edu/2017/putting-data-in-the-hands-of-doctors-regina-barzilay-0216
[4]三位女科學家用AI演算法將乳腺癌篩查速度提高100倍,
//www.techwalker.com/2017/1023/3099554.shtml
[5]//www.aminer.cn/profile/regina-barzilay/53f4567bdabfaeee22a34751
[6]Cell | 利用深度學習發現新型抗生素, //www.sohu.com/a/374703970_650136
[7]Regina Barzilay: Deep Learning for Cancer Diagnosis and Treatment | Artificial Intelligence Podcast, //www.youtube.com/watch?v=x0-zGdlpTeg

– 點擊閱讀原文或長按圖片,內行盛會,首次免費註冊-智源.jpg