「亞里士多德」通過初二科學考試!首個BERT模型AI完成了微軟聯合創始人這個遺願
- 2019 年 10 月 5 日
- 筆記
新智元推薦
轉自:大數據文摘|BigDataDigest 作者:文摘菌
編譯:啤酒泡泡、橡樹_Hiangsug
整理編輯:張佳
【新智元導讀】微軟的聯合創始人Paul Allen創立了艾倫研究所,想創造出一個能夠通過8年級科學測試的AI,然而,壯志未酬的Allen去年10月不幸逝世,未能看見今年研究所的研究人員實現了他的願望——一個基於Bert的AI系統能夠通過8年級科學測試,準確率近90%。
一隻名叫亞里士多德的人工智能剛剛通過了美國八年級的科學測試,上周,這條新聞佔據了美國多家新聞網站的首版。
美國八年級大概相當於國內初二,初二小朋友的科學測驗有多難呢?
要回答這個問題,我們先來一起看兩道美國八年級的科學測試多選題。
1、人體中能夠協同完成某一項具體機能的組織被稱為:
A.an organ
B.an organism
C.a system
D.a cell
2、以下哪一種變化最有可能導致某一區域的松鼠數量減少?
A.捕食者的數量減少
B.松鼠內部的競爭減少
C.可獲取的食物減少
D.森林火災數量的增加
很顯然,這兩道題分屬兩類不同類型。第一題屬於知識點題,只要認真背過就能答得上來;第二道則屬於邏輯推理題。
多數小朋友可能更願意回答第二題這種邏輯推斷的題目,但對於人工智能來說,情況可能恰恰相反。
人工智能做八年級卷子,選擇題正確率超90%
上周三,坐落於西雅圖的著名實驗室「艾倫人工智能研究所」全新發佈了一款名為「亞里士多德(Aristo)「的人工智能系統,它正確地回答了超過90%的八年級的科學測驗題,並在十二年級的考試中獲得了80%以上的準確率。
這款能夠通過測試能力的人工智能表明,研究人員在幾個月中便取得了巨大的進展,人工智能系統可以理解語言並能模擬人類的決策邏輯。
Aristo的設定是只用來作答多項選擇題。它參加了幾場紐約考生的標準考試,只不過艾倫研究所去除了那些包含圖片和圖表的題目,回答這些問題需要額外的技能——將語言理解和計算機視覺邏輯相結合的能力。
有些測試問題只需要一些信息提取的能力,比如上文中的第一題,這種題目是人工智能擅長的。
然而科學測試不是那種只靠記住規則就能完成的事情,它需要使用邏輯來建立聯繫。比如第二題,森林火災數量的增加會直接導致松鼠的死亡,或食物來源的減少使它們無法繁衍。人工智能需要理解這樣的邏輯,才能回答正確這道題目。
其實在Aristo成功之前,AI已經掛過無數次科。
2016年,700多名計算機科學家參加了一場設有80,000美金(摺合人民幣約57萬元)的挑戰賽,題目是「八年級科學測驗」——不過答題人不是這些科學家,而是他們建立的人工智能系統。
結果出乎意料,考生全盤「掛科」,就連最成熟的人工智能系統都無法答對超60%的題目,其語言水平和邏輯水平遠遠趕不上八年級的學生。
學霸Aristo的背後是Bert
2016年,當AlphaGo擊敗人類職業圍棋選手李世石後,許多人認為人工智能的轉折點來臨。
然而,華盛頓大學前教授、現任艾倫人工智能研究所的技術總監的Oren Etzioni博士的興奮之情很快平息了。他說,人工智能並沒有它看上去那麼先進。他提到了艾倫研究所之前參加的那場比賽,一個八年級的科學測試就難住了人工智能系統。
艾倫研究所迅速改良了之前的工作,着手於打造Aristo,其速度超出了包括Etzioni博士在內的許多專家的預期。
Aristo的應試能力來自於神經網絡,近幾年以來,世界頂尖的人工智能實驗室,如Google,Facebook等企業的實驗室都利用神經網絡進行自然語言處理(NLP),它可以通過分析人類的文章和書籍來習得語言的複雜變化。
去年年底,谷歌AI團隊發佈了BERT模型,在機器閱讀理解頂級水平測試SQuAD1.1中表現出驚人的成績:全部兩個衡量指標上全面超越人類,並且還在11種不同NLP測試中創出最佳成績,包括將GLUE基準推至80.4%,MultiNLI準確度達到86.7%等。

BERT的全稱是Bidirectional Encoder Representation from Transformers,即雙向Transformer的Encoder,模型的主要創新點在於模型的預訓練,用Masked LM和Next Sentence Prediction兩種方法分別捕捉語句的表述。

Bert模型架構
Etzioni博士很快就意識到,可以在Bert基礎之上建立Aristo系統,他們利用Bert模型對覆蓋面極廣的問題和答案數據進行訓練。
Aristo根據題目的不同類型採用了八種類型的agent來回答問題——包括數據庫中查找答案的agent、檢查相關概念列表的agent、執行定性推理的agent等。
每個agent都會對多項選擇答案產生正確與否的概率,而Aristo會對不同的選項的概率進行加權以選擇最可能的一項或多項,該模型通過多輪訓練和校準進行優化。
例如,有一個問題是:當塊體熔化時,鐵塊中的鐵原子是如何受到影響的?
A.鐵原子增加質量。
B.鐵原子含有較少的能量。
C.鐵原子移動得更頻繁。
D.鐵原子體積增加。
為了回答這個問題,Aristo先查找出「鐵原子隨着熱量增加而運動加快」的知識,將術語「融化」與「熱量」聯繫起來,將術語「快」與「頻繁」聯繫起來,並將C評定為正確選擇。
結合不同的解決問題的方法為Aristo將測試分數從2016年的大約60%提高到今年的91.6%掃清了道路。在12年級考試中,該模型得分率為83.5%。

Aristo不斷提升的答題準確率
究竟是學霸還是學渣?能用就好! 部分科學家對Aristo取得的進展並沒有抱以太大熱情,他們認為機器離完全掌握自然語言還有很長一段路要走,更不用說真正像一個人類學生那樣思考了。
「我們不能拿這項技術和真正的學生以及他們的邏輯推理能力相比。」已在微軟參與多項類似技術研發的研究員Jingjing Liu講道。
Liu和她的微軟同事曾嘗試建立一個可以通過GRE考試的系統——GRE是美國研究生入學的必考測試。
Liu表示,處理語言部分是可行的,但是建立可用於處理數學問題的邏輯推理能力就是另外一回事了。「這實在是一項太有挑戰性的工作了。」
但從商業角度來看,從互聯網搜索引擎到醫院的文檔記錄系統,Aristo的這一進展將對很多產品和服務產生廣泛影響。
根據紐約時報的報道,Etzioni博士表示:「這項技術會帶來重要的商業成果。目前我能自信的說,你們將會看到這一進展帶來的新一代產品,可能來自創業公司,也可能來自大公司。」
「這項技術仍處於初級階段,」Fast.ai的技術總監Jeremy Howard說道,「但是其技術的潛能是無限的,我們離充分發掘這項技術的潛能還很遙遠。」
Aristo也是艾倫研究所創始人的遺願
艾倫研究所命名自微軟的聯合創始人保羅·艾倫(Paul Allen),他在2013年成立了艾倫人工智能研究所,希望能夠着手解決人工智能發展的重大問題。
把「八年級科學測驗」作為題目的人工智能科學挑戰賽,其實源自於這位西雅圖億萬富翁的一個私心:他希望研究人員設計出一個足夠聰明、能夠通過八年級科學考試的人工智能程序。
自創立後,艾倫研究所的研究人員便一直致力於建造這隻聰明的人工智能程序——Aristo。
這不是一件容易的事,五年來研究者們嘗試了無數次,但是一直沒有達到艾倫希望的效果。
然而去年10月份,還沒有來得及見證Aristo的誕生,享年65歲的艾倫去世了。
在不同的電子郵件中,Aristo的作者Etzioni和Clark都對保羅·艾倫表示了敬意。當被問到這樣的系統艾倫是否就可以滿意的時候,兩人都表示:「不會。」

Etzioni和Clark在艾倫人工智能研究所
「保羅會非常高興,但不會讓我們滿足於現有的榮譽,」Etzioni說, 「他會問:NLP的下一個重要階段是什麼?」
「我可以想像他會說『恭喜你!但下一步是什麼?」
相關報道:
https://www.geekwire.com/2019/allen-institutes-aristo-ai-program-finally-passes-8th-grade-science-test/
本文經授權轉載自「大數據文摘」(ID:BigDataDigest)
作者:文摘菌 編譯:啤酒泡泡、橡樹_Hiangsug