AI未來如何應對數據饑荒?聯邦學習的崛起
- 2019 年 11 月 6 日
- 筆記
大數據文摘出品
來源:medium
編譯:Olivia、楚陽、錢天培
人工智慧於1956年被設立為一門學科,然而儘管它已有60年的歷史,但其發展仍道阻且長。
在諸多阻力中,由數據隱私所帶來的道德壓力或許最為致命。
誠然,保護消費者隱私是無可厚非的,這是建立信任的基礎,但它同時也帶來了AI界的數據饑荒,拖了AI發展的後腿。
面對數據饑荒,AI發展的下一步該怎麼走呢?聯邦學習或許是答案。
作為新興的人工智慧技術,聯邦學習有望解決這次AI熱潮的數據隱私問題和信任危機,並引領AI的第四次崛起。
AI的動蕩命運
AI歷經了兩次低谷和三次崛起,第三次崛起的標誌事件發生在2016年。當AlphaGo打敗李世石後,AI的熱潮達到了頂點。
縱觀AI發展史,每一次的AI熱潮都會受到人們的熱切關註:它會如何改變工業和人們的生活,與之相關的安全和道德問題也接踵而至。於是,每一個新的AI觀點可能會因為飽受爭議而被擱置。
AI為何能得如此熱議,或許是因為它給出的承諾要比實際能實現的多。
目前,真正智慧的機器還是十分少見的,已實現的AI大都只適用於特定場合,要想讓AI像營銷人員那樣識別潛在客戶,我們還有很長的一段路要走。但在這一領域,我們並不缺乏遠見,越來越多的人想知道AI可以幫助他們實現什麼。
眼下正值AI的第三次熱潮,未來充滿很多的不確定性,歷史會將其導向何處,仍未可知。
數據饑荒即將到來
第三次AI崛起很大程度上都是由大數據驅動的。
大數據推動了深度學習在人臉識別等領域的發展,堪稱AI浪潮中的一大突破。然而,在更複雜的領域,比如疾病診斷,AI仍然需要彌合商業願景和技術方法之間的差距。
在這些領域,AI面臨的主要問題是數據的可訪問性。數據是可得的,但會由於一些原因而無法對其評估。一個企業會因其各部門之間的相互獨立而產生數據孤島,即各部門數據是各自存儲和定義的,數據之間缺乏關聯性和兼容性,從而增加了數據的溝通成本。
因此,很難獲得到大量系統性的數據餵給深度學習模型。基於雲架構的數據中心一度被認為是解決數據孤島的潛在可行方案,但事實證明,大量的數據會使得雲計算費時而耗財。
同時,越來越嚴密的數據隱私法規(比如《通用數據保護條例》)也使得數據變得難以訪問。
AI要在數據隱私和高效率的機器學習的夾縫中求生存。
聯邦學習——AI的第四次崛起
保護消費者隱私是無可厚非的,這是建立信任的基礎。但它同時也帶來了AI界的數據饑荒,拖了AI發展的後腿。
聯邦學習作為新興的人工智慧技術,有望解決這次AI熱潮的數據隱私問題和信任危機並引領AI的第四次崛起。
它是一種機器學習架構,在保護用戶數據不泄露並遵循數據保護法規的前提下允許多方企業參與,並利用各方數據集來訓練模型。根據不同的數據分布特徵,聯邦學習分為橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。
橫向聯邦學習根據用戶特徵來劃分數據集,即當不同數據集之間的用戶特徵重疊多於用戶重疊時,採用橫向劃分數據集,取出各數據集中用戶特徵相同而用戶不完全相同的數據進行訓練。
舉個栗子,有三家物流公司分布在不同的地域,它們的業務是相似的,因此三家數據集擁有相同的用戶特徵,但其用戶並不完全相同,擁有相同用戶特徵的用戶數據可被提取出來以訓練模型。
縱向聯邦學習適用於數據集之間的用戶重疊多於用戶特徵重疊的情況。比如位於同一地域的兩家性質不同的機構:醫院和外賣公司,它們的用戶群體可能因為地域相近而交集很大,但醫院記錄的是用戶的健康特徵,外賣公司記錄的是用戶的消費特徵。縱向聯邦學習便利用用戶來劃分數據集,它可以彙集所有的用戶特徵以增強雙方的模型。
當數據集之間的用戶重疊和用戶特徵重疊都交較少時,可使用遷移聯邦學習來克服單邊數據規模小和標籤樣本少的問題。好比中國製造廠和美國物流公司的數據集,無論是在用戶特徵還是在用戶上數據集的交集都很小,此時,引入遷移學習來定義數據集之間的通用表述便可提升聯邦學習的性能。
儘管聯邦學習的能力是十分出色的,但並不意味著一勞永逸。聯邦學習須被開發成商業應用程式,針對特定的用戶制定靈活、雙贏的商業模式。在保證各方數據隔離的前提下,聯邦學習可以聯合各機構之間的數據孤島來建立更完美的模型以實現共享經濟。各機構憑藉其分享的數據獲益,而應用程式開發者則憑藉其對模型的貢獻而獲益。
相關報道:
https://towardsdatascience.com/the-future-of-ai-in-the-face-of-data-famine-42d1fe36355c