新任AAAI 2021 大會主席,楊強教授認為的「機器學習前沿問題」有哪些?

  • 2020 年 2 月 14 日
  • 筆記

作者 | 十、年

編輯 | camel

據南大周志華微博消息,微眾銀行首席人工智慧官楊強教授擔任國際人工智慧大會AAAI 2021大會主席。

楊強教授的此次任職亦是AAAI大會歷史上第二位大會主席,同時屬華人首次。

周志華教授在微博中提到,2020年前AAAI僅設程式委員會主席(Program Committe e chair),沒有大會主席( General chair)。由於近來投稿量劇增,為了使程式委員會主席能把精力集中在稿件學術品質把控上,2020年起才開始設置大會主席。

楊強教授是人工智慧業界的國際專家,在學術界和工業界做出了許多貢獻,尤其近些年為中國人工智慧和數據挖掘的發展做出了重要的貢獻。楊強教授是國際人工智慧界「遷移學習」(transfer learning)領域的發起人和帶頭人,同時也是國際「聯邦學習」(Federated Learning)的發起人之一及帶頭人。

他於2013年7月當選為AAAI Fellow,這也使他成為第一位獲此殊榮的華人;之後又於2016年5月當選為AAAI執行委員會委員,是首位AAAI華人執委,2017年8月當選為國際人工智慧聯合會(IJCAI)理事會主席,是第一位擔任IJCAI理事會主席的華人科學家。

由此可見,擔任 AAAI 2021 大會主席,也是順理成章之事。

比較巧合的是,不久之前,AI 科技評論恰好聆聽了楊強教授做的一場報告。1月11日,在《清華-中國工程院知識智慧聯合研究中心年會暨認知智慧高峰論壇》上,楊強教授做了《機器學習的幾個前沿問題》的報告,針對人工智慧演算法方面的限制,在機器學習層面對幾個前沿問題做了總結。

在報告中,楊教授指出,在機器學習流程中的大多數環節都可以進行自動化設計;面對小數據集的困境,遷移學習是很好的解決方案;在隱私保護越來越重視的今天,聯邦學習可以實現利用多方數據進行訓練,還能夠很好的保護每一方的數據隱私。

AI 科技評論藉此機會,將楊強教授的觀點分享給大家,如下——

AI科技評論做了有刪改的整理,未經楊強教授本人確認。

1、機器學習如何規模化?

雖然人工智慧現在發展的非常火熱,但是人工智慧面臨巨大的挑戰,首先是人才的挑戰,培養一個人工智慧的人才,包括在學校里的培養,在實踐當中培養,前後加起來需要耗費近十年的時間。

那麼人工智慧技術本身是不是可以用來設計人工智慧?在人工智慧的具體應用環節,有的環節是否能夠讓人工智慧來進行?換句話說,AI的演算法是不是可以自動化的進行設計?要解決這個問題需要全面考慮AI演算法,尤其是機器學習演算法整個流程的每個環節,哪個環節適宜用自動化,哪個環節不能用自動化。

機器學習的整個流程包括問題的定義、收集數據、建立特徵工程、模型的訓練和測試、應用,最後再將應用的結果回饋到第一步。所以這個循環的過程非常繁雜,有很多的環節需要人工智慧的專家,這也是為什麼一個人工智慧落地的項目非常昂貴的原因。所以哪個步驟可以用自動化來解決?例如從定義問題出發,定義問題不僅僅是從過去知識學習的問題,還能夠有意識的提出新穎的想法,甚至有些想法沒有過去的經驗可參考。

因此我們斷定在定義問題的環節很難引入自動化,但是後面的環節,例如數據的收集、數據聚合,然後形成特徵工程,包括模型的訓練其實都是可以自動化。

在數學模型的概念上,機器學習目的在於使訓練數據和模型之間的差別變得越來越小,整個過程是一個優化的過程,也是一個概率的過程。我們在尋找模型的時候,實際上是在配置的參數空間裡面尋找。但是參數的數量,尤其是在深度學習裡面的參數數量非常多,維度可以達到上億。這些參數一般是機器學習專家來調節,那麼如果使用機器,效果是不是更好?

第二個環節,是性能的評估,即評估模型和訓練數據差別,這個環節也可以部分的由機器來解決,雖然這個差別本身的定義還是由人來解決,即由數學家來定義一個模型和訓練數據之間到底有多大的差別。

所以,最近的一些分析,人工智慧的基礎是不是應該是數學,就體現在:數學家對距離的定義,即各種各樣的在不同的空間,轉化空間之間的距離的定義。

那麼如何高效的求解,在這個空間裡面找到最佳的配置是一個優化的問題,所以總結起來為:數據的預處理、特徵處理和模型訓練。這幾個方面都可以形成一些搜索空間,可以在這樣的空間裡面形成優化函數,例如上圖左邊是三個空間,那麼在這三個空間就包括在右邊的那個性能的空間裡面。

自動化的特徵工程已經有非常好的平台,例如第四範式公司推出了AutoCross平台,他會把不同維度的特徵自動的組合篩選,最後推出最優化的組合。同時現在比較困難的是在自動化機器學習里如何找到一個最優的網路結構,這也是拓撲空間的搜索問題。

上圖的右上角展現的是一個深度學習的拓撲結構,也即從一個神經元到另外一個神經元之間的連接,這種連接千變萬化,而且影響是巨大。那麼如何找到一個最佳的拓撲結構?這是比較難的問題,這個問題現在也在嘗試自動化的方式解決,具體來說是引用了強化學習的概念,如上圖左側所示。

首先在深度學習的過程中,右邊展示的是如何不斷地尋找一個更好的配值,即網路拓撲空間的一個配值參數,然後再返回到設計,由此得到回饋。這就像AlphaGo下棋一樣,不同的是把棋盤定義成網路的連接。

2、AI數據不夠怎麼辦?

現有深度學習的各種各樣的演算法,都有一個重要的假設:存在足夠的數據。如果數據不夠,可以用遷移學習來解決。

具體方法是:先看上圖紅色模型,假設我們要訓練的模型是上圖這種目標模型,需要很多的數據。如果假設數據有限,就需要在上圖左側尋找藍色領域,藍色區域的特點為:具有大量的數據、有非常可靠的模型、模型效果非常好。那麼遷移學習是:從上圖藍色成熟的模型遷移到紅色領域。這類似於人類的類比學習,舉一反三。

結果是:如果原數據量非常巨大,把它遷移到一個小數據,效果會很好。而且當原數據的數據數量和數據品質不斷提高的時候,遷移學習的效果也是不斷提高。那麼就可以把其落地到一個深度學習的遷移學習上。在上圖中紅色可以遷移到藍色,紅色已經有一個從左到右的流程,從左邊是輸入,右邊是輸出,已經可以達到很好的分類。

但是和領域特別相關,特別具體的部分,則存在於深度模型的上端,也就是在右邊輸出的那一部分,那部分盡量的讓它不要參與遷移。這便涉及到遷移策略,類似於退火模型。隨著時間,我們把這個遷移的重點逐漸推向底層,那麼這樣就使得下面的這個藍色的模型的遷移效果變得越來越好,

這種遷移方式現在也在業界大量的實施,例如汽車金融的風險控制上,大額的汽車貸款往往是很少的,那麼就需要遷移學習的解決方案,具體做法是是通過小額貸款,大量數據,通過在兩個數據之間遷移得到很好的效果。

例如城市計算,假設在一個城市已經獲得了很好的交通出行的預測模型,那麼可以把它遷移到一個新的城市,那麼在這個新的城市不用收集很多的數據,就可以獲得很好的結果。上面提到的自動化的遷移學習,就是用機器學習來學習遷移學習的策略。策略的要點是:對原領域的選擇,對遷移學習演算法的選擇。那麼在右邊的優化空間裡面再找最佳的優化解,把這個問題變成數學的問題,然後便可解決。

3、用戶隱私怎麼保護?

越來越多的聲音告訴我們,在做人工智慧的時候也要做有道德的人工智慧。首先一定要保護人的利益,人的利益最大體現就是隱私。大數據一方面可以提高效率,另一方面會涉及到很多人的隱私。現在各種法律法規也頻繁出現,例如歐洲的GDPR的保護法,中國也有相應非常嚴格的個人隱私保護法,並且遍布在遊戲、金融、互聯網各個方面。

過去的情況是:不同的機構把數據聚合到一個大數據公司,同時發揮大數據公司的力量,從而有足夠的樣本和維度;缺點是會暴露隱私。

現在有沒有別的辦法把模型高品質的建立起來呢?聯邦學習(Federated learning)是一種新的做法。意思是:假設有兩個數據擁有方,A方和B方,A方是上面的矩陣,B方是下面的這個矩陣,他們之間可能有數據上的重疊。現在的目的是讓A方看不到B方,B方也看不到A方,同時要建立一個共有的模型,這個模型把兩方的數據都用上。

舉例來說:假設一個農夫在養一隻羊,他需要把各地的草收集到農莊來餵羊,類似於把數據聚合到中心伺服器。但是假設草不能移動到外地,現在能做的是領著羊到各地吃草。也就是讓模型先到A方來加以訓練,再把模型帶到B方加以訓練,幾次之後,模型就壯大了,而數據不用流出本地,這就是聯邦學習的思想。

聯邦學習需要很多電腦領域的跨領域的知識,例如多方計算、隱私加密、加密技術、數學、分散式的機器學習、分散式計算。具體怎麼做呢?例如要在兩個領域之間做遷移學習模型,從A遷移到B,不讓A看到B的數據的同時不讓B看到A的數據。這可以以通過邏輯回歸的辦法,把數據的參數、權重等等進行加密,然後把加密的包給運到B,然後加密包會參與到B端的模型訓練,然後再把模型加密運到A,如此循環往複多次之,模型也成熟了。上述過程有兩點:第一沒有泄露任何一方面的數據,第二個達到的效果和用兩邊數據之和訓練出來的是一樣的。

電商和影片里大量使用的推薦系統會產生大量的數據,不同的推薦方擁有的數據不同,為了保護隱私,不能粗暴的把所有的手機點擊產生的數據上傳,所以要採用聯邦學習的做法。具體做法如下:

首先認識到數據有兩個部分,一部分是描述用戶,就是上圖右側U1~UN。另一部分是對產品的描述,用線性代數裡面的矩陣描述。對矩陣分解以後,然後認識到雖然有不同的用戶,但是產品本身矩陣是共有的,這個矩陣可以用聯邦邦學習來學習。具體學習過程是:

每一部分在迭代的過程中,都在貢獻自己學到的那一部分的特徵值,然後把它傳到伺服器上,在這裡面要特別關注的是上圖右邊紅色加密步驟:在上傳和下傳時用模組加密,同時包裝產品矩陣的參數包,使每一方都相互看不到彼此的數據,同時模型不斷壯大。

同時可以把此過程遷移學習化,即兩個數據方的用戶和參數的維度都重疊很少的情況下,可以退一步把其映射到一個子空間來進行學習,如此便可得到很魯棒的學習效果。在具體的電影推薦數據集實踐結果如上圖所示,右邊代表錯誤率,錯誤率隨著訓練的次數急劇的下降。

同時在新聞推薦方面,在財新的新聞推薦中使用的就是聯邦學習和遷移學習的推薦引擎。如今此項技術已經開源,並放在了Linux Foundation上,而且最近已經有所突破。

4、AI如何做到反欺詐?

金融機構AI的落地應用特別關心的一個議題是如何做到反欺詐。人工智慧的發展有一種技術:Deepfake,可以來模擬一個完全虛擬的人,虛擬和真實的之間不僅人看不出,現在很多人工智慧演算法也不能區分。

當前AI造假主要集中於以下幾點:第一個是對數據的造假;第二是對模型的造假;第三是對結果的造假。針對上面三個方面,研究者們展開了針對性的研究,例如對於訓練的過程,在考慮原本訓練目標的基礎上,同時考慮加入對抗的樣本,來增強模型的魯棒性。不僅要考慮一個模型,而且我們要考慮多個模型,從不同的角度來對樣本進行分類。假設壞人用了兩個模型,我們要用四個模型,假設壞人也學會用四個模型,我們就要用八個模型。

5、總結

最後總結一下,人工智慧的成功方面在於:第一能把一個環節給自動化,例如剛開始講的自動化機器學習。第二分散式的大數據,即怎樣能夠在保護隱私的前提下,讓不同的數據擁有方合作。第三則是高性能計算能力的提升,這一點我沒有太多研究,清華在這方面做了非常多的研究,我就不再贅述。謝謝大家!