MIT教授Regina Barzilay：用機器學習扼住命運的喉嚨

2020 年 6 月 22 日
AI

與5點陣圖靈獎得主和100多位專家

共同探討人工智慧的下一個十年

北京智源大會倒計時：2天

只有大膽求真的學者，才敢於在四十歲的年齡，在業已成名之際，開啟一個完全陌生的研究方向。

MIT 教授 Regina Barzilay 便是這樣的學者。

2014年，43歲的她開啟了學術的第二生命。作為自然語言處理學者，Regina Barzilay在自動文摘生成、古語言解析等方面享有盛譽。然而在這一年，她卻被告知自己罹患了乳腺癌。正當事業輝煌，卻遭此噩運，Barzilay經歷了一段極為暗淡的時光，隨後她重拾勇氣，向癌症進軍；數年之後，Regina Barzilay 已然成為智慧醫療領域的領軍人物。

二排左四。6月22日，MIT 教授 Regina Barzilay 將作為特邀嘉賓在第二屆智源大會做主題報告《Learning Molecular Representation》。長按圖片免費報名

一、 NLP 巔峰之路

Regina Barzilay，以色列裔美國人，本、碩畢業於以色列本-古里安大學，隨後前往哥倫比亞大學讀博，師從著名NLP學者Kathleen McKeown。

Kathleen 是哥大歷史上首位女性電腦系主任，其導師為ACL終身成就獎獲得者Aravind Joshi。

來到哥大後，Barzilay 選擇了自動文本摘要的研究方向。自動文本摘要的歷史可以追溯到上世紀 50 年代。然而直到上世紀90年代，基於統計的機器學習方法在NLP領域得到廣泛應用後，自動文本摘要的研究才真正興盛起來。

1997年，Barzilay在ACL上發表了自己的第一篇論文《使用辭彙鏈進行文本摘要》，這篇論文提出了一種摘要融合的技術，這種技術不需要完整語義解釋，而是依賴從詞法鏈衍生的文本主題發展模型。這奠定了她在隨後多年的研究方向，也引導著她逐步成為該領域的領軍人物。

2001年，911事件的發生讓Kathleen 和Barzilay產生了將研究應用於實際環境的念頭。在當時，幾乎所有的媒體都在關注恐怖襲擊的事件，每天產生大量新聞，但是追根溯源，會發現這些新聞內容大同小異，對於讀者，不得不從大量新聞中獲取資訊。在Kathleen的支援下（此時Barzilay還是博士生），Barzilay啟動了一個新的項目，稱為 Newsblaster。這個項目試圖將多個在線新聞源的內容進行融合，並生成簡潔的摘要，從而減少新聞冗餘。Newsblaster 從各種資訊源（例如Yahoo、CNN、路透社、華盛頓郵報、今日美國、有線新聞等）尋找相似主題，針對每一個主題，Newsblaster 會在摘要中生成一個句子，並根據解析找出重複短語，然後通過剪切、粘貼等方式，生成該主題新聞事件的摘要。其準確性很高，根據用戶調查，其中88%的新聞摘要被認為是可以接受的。

2003年，Regina Barzilay在其博士論文《Information Fusion for Multidocument Summarization: Paraphrasing and Generation》中對這些研究進展做了全面總結，這也成為多文檔自動摘要的基石。

博士畢業後，Regina Barzilay去到康奈爾大學，做了為期一年的博士後研究員，隨後加入MIT。在此期間，除了繼續在文本摘要方面發力外，在計算語言學領域，Barzilay 也創造了一種演算法，可以從常用語言（例如英語）中學習注釋，從而分析人們理解較少的語言。

次年，Barzilay 便獲得了NAACL 2004的最佳論文獎，並於同年入選「2004年科技研究進展榜」；2005年，獲得NSF事業獎，同年入選「MIT TR 35」；2006年，又獲得IEEE智慧系統的「AI Ten to Watch」、微軟研究獎、Ross 事業發展教授獎等。

作為一名冉冉升起的新星，Regina 在NLP領域逐漸成為備受關注的焦點人物。

隨後，Regina 又先後獲得了ACL 2009、SLT 2010、EMNLP2016 的最佳論文獎，NAACL 2014 的最佳學生論文獎，EMNLP 2015的最佳論文提名獎。拿獎拿到手軟，此之謂也。但凡資深一些的 NLP 研究者，誰人不識 Barzilay。

二、罹患乳腺癌

一個人可能一條直線、沒有波瀾地走完一生，也有一些人人到中年卻迎來第二次生命——直面生死之後的重生。

2014年，Barzilay仍繼續著往年十多篇高峰會/頂刊論文的節奏，甚至還獲得了NAACL 2014 的最佳學生論文獎。

然而，43歲的 Barzilay 迎來了一個晴天霹靂：她被確診患有乳腺癌。

「我當時已經43歲，但卻是人生中第一次意識到我會死去。」

Barzilay 拿著診斷通知單，走回MIT，走回家裡。像所有類似情景中的人一樣，她有一種不真實的感覺，懷疑會不會出現了誤診，也抱怨為什麼這種事情偏偏出現在自己身上。

陰霾籠罩著這位正處於研究巔峰時期的NLP學者，看著實驗室的忙忙碌碌，卻無心工作，她常常不知道自己身處何方。那種感覺，突然覺得自己距離這個世界如此遙遠。

站在世界的彼岸去反觀世界，站在人生的終點去反觀人生。如果人有兩次生命的話，那麼第一次生命是站在生的起點充滿期待，而第二次則是站在生的終點重估一切。

在MIT實驗室里，Barzilay看到忙碌的學生們。

「OK，他們真的想寫論文，這是他們的工作，他們需要繼續做他們的事情，這很棒。」

在醫院或加入的各種病友圈，Barzilay看到許多病友們或悲觀或樂觀的生活，他們有的在愁苦終日，有的在放聲大笑。

「然而，對我來說，真正重要的事情是什麼呢？」

她回顧了自己十多年的科研歲月，設想了自己接下來可能的生活。

「在有限的生命里，我們應當充分利用我們擁有的才華，把它們轉化為有用的東西。」

在後來回顧自己的這段經歷時，Barzilay提到，當時的她正如十幾年前初次站在科學的殿堂面前一樣，迷茫，她不知道自己接下來要做什麼。

面對生活種種困厄，依然能「扼住命運的喉嚨」者，為英雄。Regina Barzilay 無疑是這類英雄。

這時有一個契機。對比Barzilay在 2012 年和 2013 年的乳腺X射線照片，專業的醫生根本看不出任何問題；然而到2014年，她的乳腺X射線照片中卻「突然」出現了癌細胞。她明白，這種「突然」並非突然，而是因為過於細微，人眼無法分辨；作為一名電腦專家，特別是人工智慧專家，Barzilay設想：是否可以用機器學習的方法來提前檢測出癌症的發生呢？

所謂「上醫醫未病」，如果能夠提前幾年，在治癒率較高的早期階段檢測出癌症的徵兆，或許能夠讓更多人免遭癌症之苦。

機器善於做出預測——「為什麼不把所有關於乳腺癌患者的資訊都扔進模型中呢？”

三、利用機器學習檢測乳腺癌

用機器學習技術做癌症檢測，現在已經屢見不鮮。然而在2014年，卻還是新的事物。

從沮喪情緒中走出的 Regina Barzilay 開始雄心勃勃地致力於癌症檢測的革命性努力，她依靠的是在腫瘤學界基本未被認可的，但對她來說卻非常熟悉的工具：機器學習。

正如應用機器學習的其他領域，數據（特別是好的數據）至關重要。

Barzilay 找到了馬薩諸塞州綜合醫院乳腺成像科主任Constance Lehman、Avon綜合乳腺評估中心聯合主任 Kevin Hughes、乳腺放射腫瘤科主任 Taghian Alphonse。

Barzilay 擅長的領域是NLP。她以及她的學生利用NLP技術，從醫院提供的108000份臨床報告中提取了關鍵資訊，並創建了一個準確率在98%以上的數據集。

在此基礎上，Barzilay聯合 Lehman 等人開發了一套基於「隨機森林分類器（random-forest classifier）」的機器學習模型，並使用600個病患數據進行訓練，在綜合家族遺傳史、人口統計、以及過往的組織活檢和病理報告等資訊之後，該模型對 335 個數據（最終升級為癌症的病患）進行測試，結果診斷乳腺癌的準確率達到97%，而傳統方法只有79%。

這項研究結果表明：將機器學習模型引入常規診斷，超過30%的良性病灶切除術是可以避免的。

而另一方面，該技術的工作速度比人工檢查快100倍——醫生需要50-70個小時來分析50名乳腺癌患者，而該使用機器學習方法只需要30分鐘。

2016年，Regina Barzilay等人發布了利用機器學習分析乳腺癌的權威報告《Using Machine Learning to Parse Breast Pathology Reports》，這份報告奠定了Barzilay在智慧醫療領域的地位。

相關的研究仍在繼續，Barzilay的傳奇仍在繼續。

2017年，獲得麥克阿瑟獎；（這個獎項還有另一個說法，即「天才獎」，獎勵那些做出巨大創新的人）

2017年，入選ACL Fellow；

2018年，入選AAAI Fellow；

2019年，入選「藥物發現和先進醫療領域 Top 100 的 AI 領導者「。

……

四、使命

Barzilay 的研究並非僅僅局限於乳腺癌檢測。

NLP 研究仍在繼續，延續往年，每年仍有十多篇高峰會論文。2015年獲得EMNLP最佳論文提名獎，2016年則獲得 EMNLP 最佳論文獎；最近，他們更提出了一種自動破譯已消失語言的神經方法，正確翻譯率達到67.3%。

此外，從癌症檢測出發，Barzilay也逐漸過渡到藥物發現領域，今年 2月份她在Cell上發表了封面文章《A Deep Learning Approach to Antibiotic Discovery》，類似於之前向癌症檢測進軍的總結，這篇文章也是Barzilay教授向藥物發現領域進軍的盤點。

Barzilay 與 Tommi Jaakkola 等人合作 MIT 6.036 （機器學習入門）也曾火爆全網，成為入門人工智慧的「必修課」之一。

在接受MIT知名學者 Lex Fridman 的採訪中，Regina提到：

我們每個人都有自己認為最重要的事情，然而現實中我們卻忙於實現各種各樣的目標，忙於傾聽他人的聲音，努力成為人群中的一部分，卻很少有時間去正視自己的那一部分。

我們應該抽出一些時間來了解我們自己的個人任務。我們要確保，即使在同時處理一萬件事情，也要把所有的資源投入到自己使命的實現上。

回顧我自己的過往。在我年輕時，我的大部分任務都是受外部刺激而做的；而現在，我要為我的使命負責。但不管是哪種方式，對我而言，最重要的是忠實於我認為對的事情。

參考資料：

[1]//people.csail.mit.edu/regina/

[2]MIT教授罹患乳腺癌，用NLP甄別患者胸前「定時炸彈」,

//www.leiphone.com/news/201702/p8v6bxeqe99bKlie.html

[3]Putting data in the hands of doctors,//news.mit.edu/2017/putting-data-in-the-hands-of-doctors-regina-barzilay-0216

[4]三位女科學家用AI演算法將乳腺癌篩查速度提高100倍,

//www.techwalker.com/2017/1023/3099554.shtml

[5]//www.aminer.cn/profile/regina-barzilay/53f4567bdabfaeee22a34751

[6]Cell | 利用深度學習發現新型抗生素, //www.sohu.com/a/374703970_650136

[7]Regina Barzilay: Deep Learning for Cancer Diagnosis and Treatment | Artificial Intelligence Podcast, //www.youtube.com/watch?v=x0-zGdlpTeg

– 點擊閱讀原文或長按圖片，內行盛會，首次免費註冊-