Google AI 最新博文:模型的不確定性是否可信?

  • 2020 年 2 月 21 日
  • 筆記

在實際應用中,機器學習模型遇到的數據並不總是具有相同的分布。在這種情況下,模型的精度會如何變化?近日,Google AI 發布了一篇博文,討論了這個問題,他們認為,在數據集轉移的情況下,不確定性的品質會下降,但是一些有希望的研究方法可以緩解這種情況。原文大意如下:

在理想情況下,機器學習方法(如深度學習)被用來對與訓練數據分布相同的數據進行預測。但實際情況可能大不相同:相機鏡頭變得模糊,感測器退化等問題,都可能導致訓練模型與應用模型數據分布之間的差異,從而導致所謂的協變數偏移。例如,最近有人觀察到,接受過胸部 x 光檢查肺炎訓練的深度學習模型,在根據以前沒遇到過的醫院數據進行評估時,其精確度水平將大不相同,部分原因是影像採集和處理方面的細微差異。

在 NeurIPS 2019 上,我們的論文「Can you trust your model』s uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift(https://arxiv.org/abs/1906.02530)」對最先進的深度學習模型的不確定性進行了基準測試,因為它們暴露於不斷變化的數據分布和分布外的數據。在這項工作中,我們考慮各種輸入模式,包括影像、文本和在線廣告數據,將這些深度學習模型用於不斷變化的測試數據中,同時仔細分析其預測概率的行為。我們還比較了各種不同的方法來提高模型的不確定性,看看哪些策略表現最好。

什麼是分布外數據?


深度學習模型為每個預測提供一個概率,這個概率表示模型的可信度或不確定性。因此,當數據不在原始訓練數據集的範圍內時,它們可以表達它們不知道的內容,避免預測。在協變數移位的情況下,不確定性理想情況下會隨著精度的任何降低而成比例增加。一個更極端的情況是,數據不在分布範圍內(OOD)。例如,你可以設想一下,當一個貓狗影像分類器遇到飛機影像時會發生什麼。這個模型是自信地預測錯誤,還是根據概率進行分類?在此前的文章中,我們最近討論了我們開發的識別此類 OOD 示例的方法(https://ai.googleblog.com/2019/12/improving-out-of-distribution-detection.html)。在這項工作中,我們分析了分布外模型的預測不確定性,並轉移了實例,以查看模型預測概率是否反映了它們對此類數據的預測能力。

量化不確定度的品質


一個模型比另一個模型更能反映其不確定性意味著什麼?雖然這可能是一個細緻入微的問題,通常是由下游任務定義的,但有一些方法可以定量評估概率預測的總體品質。例如,氣象界仔細考慮了這一問題,並制定了一套適當的評分規則,天氣預報的概率比較函數應滿足這些規則,以便能夠很好地進行校準,同時也有利於提高準確度。我們應用了一些適當的評分規則,如 Brier 評分和負對數似然(NLL),以及更直觀的啟發式方法,如預期校準誤差(ECE),來了解不同的 ML 模型如何處理數據集移位情況下的不確定性。

實驗


我們分析了數據集移位對各種數據模式(包括影像、文本、在線廣告數據和基因組學數據等)不確定性的影響。舉個例子,我們演示了數據集移位對 ImageNet 數據集的影響。ImageNet 將 100 多萬張影像分為 1000 個不同的類別。一些人現在認為這一挑戰已經基本解決,並且已經開發出更難的變體,例如損壞的 Imagenet(或 Imagenet-C),其中數據有 16 種不同的損壞,每種損壞的強度分為 5 種。

我們探討了在數據分布變化時,模型不確定性如何變化

我們使用這些損壞的影像作為移位數據的例子,並檢查深度學習模型在處理損壞強度增加的移位數據時的預測概率。下面我們展示了每一級損壞(包括未損壞的測試數據)的準確度和 ECE 的方框圖,其中每個方框圖綜合了 ImageNet-C 中所有損壞類型,每個顏色代表不同類型的模型。

增加 ImageNet-C 上數據集偏移強度的精度(上)和預期校準誤差(下)。我們觀察到,精度的降低並不是由模型不確定度的增加反映的,這表明精度和 ECE 都在變差。

隨著損壞強度的增加,每個模型的各個損壞方法的精度偏差如預期的那樣增加,並且總精度降低。理想情況下,這將反映在模型的不確定性增加,並且保持預期校準誤差(ECE)不變。然而,從 ECE 的較低曲線圖來看,情況並非如此,而且校準通常也會受到影響。我們觀察到 Brier 分數和 NLL 的類似惡化趨勢,這表明模型並沒有隨著數據損壞的增加而變得越來越具有不確定性,而是自信地進行錯誤的判斷。

改進校準的一種常用方法是溫度標度法,它是 Platt 標度法的一種變體,它涉及到在訓練後使用在有效數據集上的性能來平滑預測。我們觀察到,雖然這改進了標準測試數據的校準,但它常常損壞數據的情況更糟!因此,應用這一技術的實踐者應該警惕分布的變化。

幸運的是,有一種方法在不確定性方面的退化比其他方法要優雅得多。Deep-ensembles(圖中綠色部分)是一種簡單的策略,它對一系列模型的預測進行平均化,顯著提高了對移位的魯棒性,並優於所有其他測試方法。

總結和建議的最佳做法


在本文中,我們探索了在跨影像、文本、在線廣告數據和基因組學的數據集轉移下,最新模型的行為。在這些不同類型的數據中,我們的發現基本一致。在數據集轉移的情況下,不確定性的品質會下降,但是一些有希望的研究方法可以緩解這種情況。我們希望深度學習的用戶從我們的研究中獲得以下資訊:

  1. 數據集轉移下的不確定性是訓練模型時需要考慮的一個現實問題。
  2. 在分布內的測試集上提高校準和精度,通常不能轉化為對移位數據的改進校準。
  3. 在我們考慮的所有方法中,Deep-ensembles 對數據集轉移來說最具有穩健性,相對較小的集合大小(如 5)就足夠了。其有效性為改進其他方法提供了有趣的途徑。

提高深度學習模型的預測不確定性仍然是 ML 研究的一個活躍領域,我們已經發布了該基準的所有程式碼和模型預測,希望對社區推動和評估未來這一重要課題的工作有幫助。

程式碼和模型網址:https://github.com/google-research/google-research/tree/master/uq_benchmark_2019

via:https://ai.googleblog.com/2020/01/can-you-trust-your-models-uncertainty.html