從引力波探測到RNA測序,AI如何加速科學發現
- 2021 年 11 月 3 日
- AI

編輯 | 琰琰
越來越複雜的實驗和日益增長的數據為科學探索帶來了新的挑戰,而實驗表明,機器學習,尤其是深度神經網路架構的通用性能夠解決廣泛且複雜的問題, ImageNet 等大型數據集的激增,引導了許多不同深度學習方法的深入探索。
這篇綜述論文重點關注機器學習和實驗設計的融合,以及如何通過加速數據處理、實時決策來解決關鍵的科學問題。
在過去幾年,許多機器學習的進步源於異構計算硬體的使用,特別是圖形處理器(GPUs)使大型機器學習演算法得以快速進步。經過大數據集訓練的AI模型已經能夠執行複雜的任務,同時,以減少計算量而實現快速和高效訓練的新型深度學習演算法也開始越來越多的出現。
強大的機器學習技術與實驗設計的結合,可以縮短科學發現的時間,從嵌入實時特徵到跨分散式網路,計算數據中心的大規模機器學習在許多不同的科學應用實驗上取得大的跨越。不過,高效的解決方案依然需要領域專家、機器學習研究人員和電腦架構設計師之間的共同合作。
隨著機器學習工具變得越來越複雜,如何構建大模型來解決複雜的問題成為了新得關注點,例如語言翻譯和語音識別,它們的出現使得科學應用在快速發展中廣泛收益。目前這些應用已經出現多樣化,因為人們不得不意識到如何調整他們的科學方法從而更好地利用人工智慧的好處,包括人工智慧對事件的實時分類能力,如識別粒子碰撞或引力波合併;包括系統控制,如來自等離子體和粒子加速器的回饋機制的響應控制。在這些所有情況下,機器學習都是以設計目標為驅動因素的。
考慮到文章篇幅,我們將從三個部分對整篇綜述報告進行呈現,第一,機器學習如何探索廣泛的科學問題;第二,快速機器學習作為一種顛覆性技術,如何改變我們處理數據的方式,通用的數據表示法和實驗程式有哪些。第三,從演算法設計到系統架構的硬體對機器學習進行整體設計。
隨著科學生態系統規模的快速增長,數據處理和新範式需要集成到系統設計層面來完成。通過複雜數據處理過程的研究,作者發現,不同領域和架構之間實現機器學習可能會有很大差異,但仍然具有相似的底層數據表示和集成機器學習的需求。報告中列舉了大量科學領域的應用案例,涵蓋現有技術和未來需求。接下來,我們將重點介紹機器學習在物理學、生物醫學工程學以及無線網路和邊緣計算三個領域的應用現狀和挑戰。
基礎物理學
正如愛因斯坦在 1916 年預測的那樣,引力波在廣義相對論中表現為時空度量的變化,並在時空結構中以光速進行傳播。例如,美國雷射干涉引力波天文台(LIGO)、歐洲「處女座」(Virgo)引力波探測器和日本神岡引力波探測器(KAGRA)均採用公里級雷射干涉儀網路探測引力波。
引力波為基礎物理研究提供了一種獨特的方法,包括在強場域測試廣義相對論、引力波的傳播速度和極化、物質在核密度下的狀態、黑洞的形成、量子引力效應等,它以一種與電磁和中微子天文學相輔相成的方式,打開了全新觀察宇宙的窗口。在未來的觀察中,LIGO、Virgo 和 KAGRA 將探測到越來越多的引力波後備,但這對當前的檢測框架提出了計算挑戰,該框架依賴於匹配濾波技術,需要將來自模擬的參數化波形(模板)與引力波時間序列數據相匹配 。
隨著儀器低頻靈敏度的提高,以及引力波搜索參數空間擴展到自旋效應和低品質緻密物體,匹配濾波尺度將變差。為了估測引力波的物理特性,迄今為止一直使用隨機貝葉斯後驗取樣器(比如馬爾可夫鏈蒙特卡羅法和嵌套取樣法)。這些分析方法可能需要數小時到數天才能完成,搜索和參數估計也產生了不可避免的延遲,進而可能阻礙時間敏感源(如雙星、超新星和其他未知系統)的電磁跟蹤。
此外,引力波瞬態的觀測也容易受到環境和儀器雜訊的影響。瞬態雜訊偽影可能被誤識為潛在來源,特別是當引力波瞬態具有未知的形態時(例如超新星、中子星故障)。儀器雜訊譜中的線路雜訊會影響對連續引力波(如自旋中子星)和隨機引力波(例如未解的緻密雙星系統引力波的天體物理背景)的搜索。這些雜訊源很難模擬,目前的雜訊減除技術不足以去除更複雜的雜訊源,如線路雜訊和非平穩雜訊源。
近年來,機器學習演算法在引力波物理學的不同領域進行了探索。卷積神經網路已被應用於探測和分類二元結的引力波、 超新星核坍塌的爆發引力波以及連續引力波;遞歸神經網路(RNNs)的自動編碼器使用無監督策略檢測引力波;FPGA遞歸神經網路在引力波低延遲檢測方面發揮著潛力。
此外,概率生成機器學習模型用於引力波參數估計的後驗取樣,在模擬數據上取得與貝葉斯取樣器相當的性能,大大縮短了完成時間。機器學習演算法也被用於提高引力波數據品質,減少雜訊。瞬態雜訊偽影可以通過時頻變換和恆Q變換或檢查LIGO的輔助通道來進行識別和分類。
儘管機器學習演算法在引力波數據分析中顯示出了很大的潛力,但其中許多演算法仍處於概念驗證階段,尚未成功應用於實時分析。目前需要努力的方向是,為了降低低延遲分析創建計算基礎設施,提高訓練數據的品質(例如擴展參數空間,使用更真實的雜訊模型),並更好地量化這些演算法在較長的數據延伸上的性能。
生物醫學工程
由於高解析度和高通量生物醫學設備的進步,我們已經看到生物醫學數據的爆炸式增長,如生物醫學影像、基因組序列和蛋白質結構。各種機器學習演算法已經被廣泛應用於醫療場景中,如AI增強現實顯微鏡能夠自動分析細胞影像和實時表徵細胞。機器學慣用矽片預測熒游標記、無標記罕見細胞分類、形態表徵和RNA測序。對於原位細胞分選、實時治療反應預測和增強現實顯微鏡輔助診斷,深度學習模型的數據結構也能夠大幅提高速度和效率。
現階段,機器學習臨床應用面臨的主要挑戰是訓練和測試數據不足。對於需要專家知識的超大影像和影片數據集,醫學數據標註過程既耗時又昂貴。訓練模型推理的延遲也給實時診斷和手術操作帶來了計算困難,而時間關鍵型醫療保健的服務品質要求小於300毫秒,就像實時影片通訊一樣。為了達到每秒60幀(FPS)的高品質醫療影片,深度學習模型的效率和性能變得至關重要。
推理精度和速度是機器學習演算法需要改進的主要方面。一些先進的機器學習模型可以達到很高的推理速度。如常用於醫學成像的對象檢測模型YOLOv3-tiny,可以在標準數據集上以超過200 FPS的速度處理影像;基於GPU和FPGA的分散式無線感測器網路和基於5G高速Wi-Fi的機器學習模型都部署在醫療AI應用中。用於腦卒中、血栓形成、結腸息肉、癌症和癲癇快速診斷的機器學習模型顯著減少了病灶檢測和臨床決策的時間。實時人工智慧輔助手術可以改進圍手術期工作流程,實現影片分割、手術器械檢測、組織變形可視化。高速機器學習在遠程診斷、手術和監測等數字健康領域發揮著至關重要的作用。
無線網路和邊緣計算
在許多科學研究中,無線設備和服務已經成為收集和傳遞大數據的關鍵工具。此外,移動資訊已被證明在了解人類活動及其對環境和公共健康的影響方面十分有用。數據流量的指數級增長給無線基礎設施帶來了巨大的壓力。特別是,小區間干擾大大影響了可靠性和延遲性。為了滿足用戶對數據通訊和增值AI/機器學習業務的需求,無線提供商必須:1) 開發更智慧的無線電資源管理學習演算法,以適應複雜多變的通訊量和干擾條件; 2)在邊緣設備上實現大量機器學習/AI計算和功能,以達到更低的延遲和更高的通訊效率。
機器學習模型的常規實現,尤其是深度學習演算法,遠遠落後於實用程式的數據包級動態。為了提高效率,現有的機器學習/AI服務通常在雲中執行,但代價是通訊開銷大和延遲高。無線網路和邊緣計算面臨的主要挑戰是如何構建可以在小型蜂窩接入點內以低於10毫秒的低延遲執行複雜任務的計算平台。
研究人員提出了許多種學習演算法,希望通過神經網路完成特定的無線電資源管理任務。最初訓練神經網路控制電力傳輸採用的是監督學習。最近,有人提議採用深度強化學習可以更好地改善通路和網路的不確定性問題,而且只需要少量先驗訓練數據。
後來許多工作開始集中在邊緣計算和深度學習間的融合。有研究人員使用聯邦學習的方式訓練AI模型,而不是將所有數據發送給中央控制器進行訓練。由於缺乏既快速又高效的實用型ML/AI解決方案,上述工作基本上停留在模擬階段。更具體地說,開發一種計算平台,使得該平台能夠以小於10ms的速度執行複雜ML模型,且可以配置在小型小區接入點是現階段的主要目標。
實時、加速的人工智慧推理有望在當前和未來的科學儀器領域提高探測能力。為設計高性能的AI系統,我們需要重點關注目標域機器學習演算法的性能係數,它可能受到推理延遲、計算成本、可靠性、安全性和極端環境下運行能力的影響。例如,機器學習在大型強子對撞機上觸發需要延遲100 ns的稀有事件採集系統。
此外,先進科學儀器的實時分析必須不間斷地分配計算資源,無線醫療設備處理患者敏感資訊必須保密。上述特徵和特性為人們分辨出域和應用程式之間的差異和共性提供了可量化的準則。這些準則可以解決不同科學領域的不同需求。合適的數據表達是設計過程中重要一步,也是第一步,因為它能夠決定模型的應用場景。
數據表示
在特定領域使用的數據表達方式對計算系統和數據存儲均有影響。國際上,跨域數據表達可以分為原始數據和重構數據。數據表達方式通常因重建階段和數據處理管道中的上游步驟而異。當數據具有影像性質時,現有的應用程式包括完全連接的CNN模型在內,通常將預處理的熟練特徵變數作為輸入值或 CNN模型。現有的CNN演算法發展成果得益於變數的精準性和高效性。
為了充分挖掘CNN模型的力量,使其資訊損失降到最低水平,需要採用一種合適的原始數據表達方式,例如點雲,它根據不同實驗和測量系統的原始數據可以明顯得出:
-
空間數據:用於描述幾何空間中的物理對象。主要有兩種類型:矢量和柵格數據。矢量數據可以由點、線或多邊形組成;柵格數據是指由像素組成的網格,像素相依表示為影像或其他的值,如強度、電荷、場強等。
-
點云:一種空間數據類型。這種數據表達是通過整理一組空間數據(即三維空間中的點)創建的,這些數據通常在空間中共同構成一個對象。
-
時序數據:用於表示系統/實驗在特定時間的狀態。跨時段收集而來的數據會按照特定的順序進行分類。時間序列數據是上述表達方式中的一個子集,其中的數據以固定的時間間隔進行取樣。
-
時空數據:可在空間和時間兩個維度上測量和觀測某個系統。在這種情況下,數據可以被認為是時空的。
-
多光譜數據:用於表達多個感測器中的輸出值,上述感測器能夠從電磁光譜的多個頻段捕獲測量值。多光譜表達通常用於成像,與能夠識別波長各異的光的感測器有關。通常會涉及幾個到幾十個光譜的量級。
-
高光譜數據:用於表示從大量光譜(如100s)中得到的測量值。這些從各異的窄帶光譜中採集到的影像被合併成一個高光譜立方體,該立方體具有三個主要維度,前兩個維度參考了二維空間位置(例如,地球表面),第三個維度代表了每個「像素」位置的完整頻譜內容。
點雲
點雲數據表達是高能粒子領域中一個常見的概念。在高能粒子領域裡,經大量探測器收集而來的測量數據被合併成一個數據集。在眾多高能粒子應用中,點雲通常用於表示數據尺寸超過1Pb/s的粒子射流。通俗地說,點雲可以用來捕捉任何三維空間事件和空間中運動部件的相互作用。
質子之間發生碰撞後的殘餘物在訂製化和優化後的探測器中產生訊號,在空間中以點的形式顯示。掃描後的各類影像數據可以按照點雲的方式呈現,生物醫學工程和虛擬實境中的CT和PET掃描也是利用點雲進行成像,還有用於產品設計、實體對象建模、體系結構和基礎設施設計的三維掃描儀。
上述成像任務中,大部分都是按照從GB到TB的順序生成相應大小的點雲。域共享點雲表達(例如高能粒子和生物醫學成像)也會涉及到空間特性。

多/高光譜數據
多光譜數據在無線醫療監測和無線通訊系統之間普遍存在。一組生理感測器通常代表不同的模式,被合併成一個多光譜數據集,用於醫療監測和干預系統。對於無線通訊而言,通過多光譜數據捕獲訊號干擾情況和網路流量狀況,兩個領域都會跨時間捕獲數據,因此也會顯示出時間特性。
與其他領域相比,這兩個領域中生成的數據大小可以被認為相對較小(從100s Mb/s到10s Gb/s)。高光譜數據被用於許多天文學應用、醫學成像和電子顯微鏡領域,用於實現更多的材料科學設計和發現應用。
如圖7所示,電子顯微鏡中顯示的是高光譜數據。將電子探針柵格化在所研究的樣品上,並在像素探測器上捕獲衍射圖。當電子探針在樣品上掃描時,像素探測器進行影像捕捉。新興的多信使天文學應用進一步提升了高光譜數據表達的效用,這些數據表達是結合了大量探測器和望遠鏡的觀測結果匯總而成。
作者重點對如何構建高效機器學習演算法的技術和技巧進行了簡要概述。在考慮硬體的情況下,構建演算法實現協同設計,需要為硬體編程提供高效的平台。為實現這這一點將從三個部分進行介紹:重點討論神經網路設計和訓練,以便實現硬體的有效應用;將機器學習硬體計算平台分為「常規CMOS硬體」和「新興的超CMOS硬體」兩部分進行介紹。前者將解決近期的硬體方案,後者專註於頻譜的投機端。
同時,由於編程新硬體領域發展迅速,作者以一個具體示例闡明設備家族面臨的選擇和挑戰:即現場可編程門陣列(FPGA),希望從FPGA的細節中,為讀者了解軟體設計的基本方法提供幫助。本文將以用於高效部署機器學習模型的系統方法為例進行簡單介紹。
科學領域中的許多機器學習問題要求延遲時間短,資源較為有限。然而,大多數現有的先進CNN模型延遲度非常高,且佔用記憶體大,消耗量高。出於上述原因,實踐者被迫使用非理想精度的次優模型(例如淺層CNN)來避免這一延遲問題。大量的文獻致力於通過解決上述延遲問題,以提升CNN模型有效性,大致歸納如下:
1、設計全新的高效NN架構;2、 NN架構與硬體的協同設計;3、量化(低精度推斷);4、剪枝和稀疏推斷;5、知識蒸餾。
作者在文中闡述了需要在高吞吐量和低延遲環境下的機器學習演算法,既包括系統設計和培訓,也包括機器學習模型的高效部署和應用。在硬體應用方面主要討論了兩類內容:現有的傳統CMOS技術和超CMOS技術。在常規的CMOS案例中,在摩爾定律的基礎上,人們重點研究機器學習設計的先進硬體架構。對於眾多硬體來說,機器學習演算法的協同設計是特定科學領域對硬體(包括其體系結構和可編程性)要求的關鍵,一個高度相關和極其重要的硬體平台的示例就是FPGA,作者認為,這些技術提供了令人興奮和超級高效的技術,雖然它們可能具有投機性,但相對於常規技術,已經大幅提升了現有的技術水平。
這篇綜述報告主要闡述了高效的機器學習演算法的應用,如何使跨領域的科學發現成為現實。這個過程中,科學探索時常產生令人激動的新研究和新發現。然而,這是一個相對嶄新的領域,蘊藏著豐富的潛力,也面臨著跨領域的開放性挑戰。除了報告中闡述的內容之外,我們希望通過這篇文章對科學用例及其交疊的呈現能夠給讀者提供在其他研究中展開應用的靈感。
機器學習的訓練和部署手段以及電腦體系結構都是一個非常迅速發展的領域,新的任務接踵而至。在機器學習和科學領域中不斷引入新方法,同時理解不同硬體下新演算法的協同設計以及部署這些演算法的工具流的易用性就顯得尤為重要。這裡的創新之處將快速和廣泛採用強大的新機器學習硬體得以實現。在超CMOS技術的情況下,這些應用性設計是很重要的,同時也要考慮到技術的成熟程度、融入計算體系結構以及如何編程這類器件。
我們期待著在不久的將來能夠重溫這些話題,看看在應用程式、機器學習技術和硬體平台領域的發展速度——最重要的是它們的融合,在科學上領域上取得的顛覆性突破。
註:這篇綜述報告是第二屆年度Fast Machine Learning大會的概述,彙集了從粒子物理學家、材料學家到健康監測研究人員,以及機器學習學者和電腦系統架構師等多個科學專家的內容,希望通過專家觀點和概念找到特定領域應用、機器學習、實驗和電腦系統架構之間匯合點,以加快科學發現。以下是整篇報告的具體章節:

雷鋒網