科研中該如何應用深度學習 | 翻譯徵文 | 雷鋒字幕組
本文為雷鋒字幕組「觸摸世界前沿科技 | 翻譯徵文 」活動收錄稿件
01
圖片來源:DepositPhotos
本文是我們對人工智慧研究論文評論的一部分,這是一系列探索人工智慧最新發現的文章。
無論我們是否想當然,深度學習演算法已經成為我們日常生活中不可分割的一部分。個性化訂閱、人臉和語音識別、網路搜索、智慧揚聲器、數字助手、電子郵件和許多其他應用程式都在後台都需要依賴深度學習演算法的支援。
在科學研究中,深度學習的效果究竟如何?在科學研究中,所面臨的問題往往比對影像進行分類要複雜得多,所面臨的需求往往比推薦下一步去買什麼要更敏銳。
為了回答這個問題,Google前首席執行官埃里克·施密特和Google AI 研究員邁斯拉·拉胡整理了一份關於不同深度學習技術及其在科學研究中的應用的全面指南。
作者寫道:”在廣泛的科學領域收集的數據數量在規模和複雜性上都急劇增加。”他還補充道,隨著機器學習的進步,這一豐富的資料庫可以為”科學環境中的深層學習應用提供許多令人興奮的機會”。
他們的這份指南名為”科學研究中的深度學習綜述”,為不那麼精通人工智慧演算法複雜語言的科學家提供了深度學習和神經網路的簡明概述。
我強烈建議閱讀整個 48 頁的文檔及其參考文獻。在這裡對一些關鍵的內容進行提要。
02 你不一定必須做深度學習
隨著深度學習風靡一時,人們傾向於將它們應用於任何領域。畢竟,基本深度學習理論的觀點非常吸引人:作為一個基於大量數據的端到端人工智慧模型,深度學習可以執行複雜的分類和實現預測。
深度神經網路可以解決以前由其他類型的機器學習演算法來解決的問題,例如內容推薦或欺詐檢測。不僅如此,它們還能處理其他機器學習技術曾經難以處理的的問題,包括複雜的電腦視覺和自然語言處理 (NLP) 任務。
然而,施密特和拉胡卻警告說,在擬定方案時,必須考慮深度學習方案是否適用於解決當前問題。他們寫道:”在許多環境中,深度學習技術可能不適合作為上手方案或並非是最適合解決該問題的方案。
對於許多問題而言,其他簡單的機器學習演算法常常提供更高效的解決方案。例如,如果你想找到不同物質中最相關的一組化學特性,最好使用”降維演算法”。這種技術可以幫助我們找到對結果貢獻最大的特徵。
另一方面,如果數據有限,或者數據以表格格式整齊地排列,則可能需要在使用神經網路之前考慮嘗試回歸模型。通常情況下(也不盡然),神經網路需要大量的數據,並且其模型難以解釋。相比較來看,尤其在問題本質上是線性時,線性回歸和邏輯回歸演算法可以在數據稀少時獲取更準確的結果。回歸模型還能提供一個清晰的數學方程,其係數可以直觀解釋數據集中每列特徵的相關性。
03 深入學習影像相關科學任務
如上圖,科學家通過深度學習演算法來檢測患者胸部 X 光片,確定病患是否存在 COVID-19 感染的跡象(圖片來源:COVID-Net)
深度學習演算法在可視化數據的處理領域非常行之有效。作者將卷積神經網路描述為”最知名的神經網路系列”,”在處理任何類型的影像數據時都非常有用”。
除了商業和工業應用之外,卷積神經網路在許多科學領域也很有用處。醫學影像分析是卷積神經網路最著名的應用之一。到目前為止,科學家們設計了許多用於檢測 CT 和 X 光影像的深度學習演算法來診斷諸如癌症等疾病。最近,科學家們一直在使用卷積神經網路在胸部 X 光影像中探查新型冠狀病毒的癥狀。
此外,某些深度學習在視覺領域的應用還不太為大眾所知。例如,為了跟蹤動物的運動並分析它們的行為,神經科學家正在試驗可以檢測姿態的神經網路。
04 NLP 技術可以擴展到其他領域
從深度學習演算法的進步中獲益匪淺的另一個領域是自然語言處理。循環神經網路(RNN)、長期短期記憶(LSTM) 網路和 Transformer 特別擅於執行翻譯和問答等語言相關的任務。
需要說明的是,當前的人工智慧演算法處理語言的方式與人腦截然不同且效果不及於人類。即使是最龐大的神經網路都可能會在一些最簡單的任務中失敗,其表現甚至不及於僅具備基本語言知識的孩子。
發生上述現象的原因是:如同所有其他類型的神經網路一樣,RNN 和 Transformer 的設計核心仍然是模式識別。無論是文本還是其他類型的資訊,他們都在數據序列中查找重複模式。據施密特和拉胡的所說,這些結構比較適用於數據具有順序性質(不同序列不同長度)的問題,或者諸如確定下一個序列、將一個序列轉換為另一個序列或確定序列相似性之類的預測問題。
雖然這個方案在處理語言的抽象和隱含含義方面存在局限性,但在基因組學和蛋白質組學等領域的科學研究中由於順序結構在其中起著重要的作用,因此這類方案有著一些非常有趣的應用。
Transformer 是非常高效的模型。在最近的一個項目中,研究人員利用無監督學習,在跨越進化多樣性的 2.5 億個序列中,利用 860 億氨基酸數據進行雙向 Transformer 模型的訓練。研究人員寫道:「在沒有標籤或先驗的域知識的前提下,所得模型將原始序列映射到生物特性的表示。這是了解蛋白質序列和從原始序列中提取有關蛋白質的可轉移資訊的重要一步。」
05 如果您沒有大量數據,該怎麼辦?
對深度學習的主要批評之一便是其需要大量的訓練數據。在許多科學領域,沒有足夠的帶標籤的數據。比如在醫藥領域,數據收集費用昂貴,還由於涉及個人敏感資訊的數據採集受到法律約束。
同時,許多人和組織也無法滿足深度神經網路在訓練過程中所需要的大量計算資源和電力。
不過,並不是每個深度學習模型都需要大量訓練數據。在過去幾年中,遷移學習的發展使許多開發人員無需大量數據和計算資源便能夠創建深度學習模型。遷移學習的思想是為新任務微調一個預先訓練的人工智慧模型。目前,遷移學習在電腦視覺方面取得了顯著成功,有許多經過數百萬個樣本訓練的 AI 模型都免費開源,易於獲取。
只要新問題接近於基礎模型所涉及的領域,並且有一組不錯的樣本,就有機會為新任務微調一個 AI 模型。
「通常來說,應用遷移學習是開始解決新問題的絕佳方式。除了預訓練權重提供的知識重用、穩定性和收斂提升之外,使用經過良好測試的標準神經網路架構也能帶來好處。”作者寫道。
同時,他們也警告說:”不過,遷移學習的確切效果尚未被完全理解,仍是一個活躍的研究領域。」
在未來幾個月里,另一個值得關注的領域是自監督學習。這也是人工智慧的一個分支,自監督學習無需人工標記的樣本直接從原始數據中進行學習。不過,自監督學習研究還處於起步階段,目前也是研究熱點。
此外,例如生成對抗網路(GAN)等生成模型研究是一個已經取得一些研究進展的領域。GAN 可以生成類似於其真實對應數據的虛假數據。也許,GAN 最出名成果就是他們可以創造自然但不存在的人臉。藝術家們現在使用 GAN 來製作能高價出售的畫作。
不僅如此,GAN 在科學研究中也有實際應用,包括在醫學成像和蛋白質生成中的數據增強。在最近的一個項目中,研究人員訓練 GAN 模型來生成功能蛋白序列。研究人員寫道,該模型證明了人工智慧快速產生高度多樣化的新型功能蛋白的潛力。
強化學習是另一個在科學研究中前景很好但是稀缺數據的領域。在強化學習中,AI 智慧體會自行探索問題空間,並通過獎勵函數優化動作從而提升智慧體的行為。
然而,生成式 AI 和強化學習也有一些需要注意的地方。施密特和拉胡指出:「我們將這些方法稱為高級方法,因為它們通常更複雜,且可能需要問題具有特定屬性才能有用,例如一個用於強化學習的優秀環境模型或模擬器。」
06 科學研究與深度學習的可解釋性問題
深度學習經常提出的另一個挑戰是可解釋性。深度神經網路是複雜的函數,參數可能跨越數百萬甚至數十億,並且了解它們如何解決問題和做出預測通常令人困惑。
這可能對科學研究的許多領域構成挑戰,在這些領域,重點是理解而不是預測,研究人員試圖確定數據中觀察到的模式背後的基本機制。施密特和拉古寫道:「在科學環境中應用深度學習時,我們可以將這些觀測到的現象用作預測目標,但最終目標仍然是了解產生這些觀測結果的屬性。」
所幸,可解釋的人工智慧的進步在某種程度上幫助克服了這些障礙。雖然充分理解和控制神經網路的決策機制仍然是一個挑戰,但過去幾年開發的技術幫助我們解釋該過程。
施密特和拉胡將 AI 可解釋性技術分為兩大類:特徵歸因和模型檢測。
功能歸因有助於我們更好地了解特定示例中哪些功能有助於神經網路的輸出。這些技術可生成顯著性地圖,突出顯示這些要素。例如,如果您要檢查影像分類器,則顯著性地圖將突出顯示 AI 在確定其類別時所居於的影像部分。
GradCAM、LIME 和 RISE 等都是用不同技術產生的顯著性地圖。這些方法能幫助我們檢查神經網路輸出是基於正確或錯誤的特徵。
RISE 製作的顯著地圖示例
另一方面,模型檢測試圖探測網路隱藏層中的神經元,並找到激活神經元的輸入類型。這些技術提供了對 AI 模型通用機理更好的解釋。GANPaint 是這個領域比較有趣的工作,它可以讓你檢查操作單個神經元的效果。 Activation Atlassses 是一款能夠可視化神經網路神經元之間相互作用的工具。
事實上,將深度學習應用於科學研究的機會很多。施密特和拉胡撰寫的論文為有抱負的科學家提供了很好的起步指南。
作者寫道:「隨著許多不同科學領域數據在數量和複雜性上的不斷增加,深度學習方法在預測領域以及揭示數據生成過程中的微小特性上值得期待。」
原文鏈接://www.yanxishe.com/TextTranslation/2525
本文為雷鋒字幕組「觸摸世界前沿科技 | 翻譯徵文 」活動收錄稿件