欠擬合與過擬合技術總結

2021 年 6 月 15 日
筆記

前言：

機器學習的模式是通過大量的數據餵給一個模型，模型會根據數據不斷調整自身參數，最終具備判別這些數據的模式或特徵的能力。若模型無法從這些數據中訓練出一個很好的效果，則認為它是欠擬合。若模型在訓練的時候達到很好的效果，而在未參與訓練的數據上測試，效果不好，則認為它是過擬合。

在本文，將介紹欠擬合與過擬合的概念、特點、產生的原因、解決的方法。在認真閱讀本文後，讀者將會對欠擬合與過擬合有個全面的認識。

關注公眾號CV技術指南，及時獲取更多計算機視覺技術總結文章。

欠擬合與過擬合的概念

在訓練模型的過程中，我們通常希望達到以下兩個目的：

1. 訓練的損失值儘可能地小。

2. 訓練的損失值與測試的損失值之間的差距儘可能地小。

當第一個目的沒有達到時，則說明模型沒有訓練出很好的效果，模型對於判別數據的模式或特徵的能力不強，則認為它是欠擬合的。

當第一個目的達到，第二個沒有達到時，說明模型訓練出了很好的效果，而測試的損失值比較大，則說明模型在新的數據上的表現很差，此時可認為模型過度擬合訓練的數據，而對於未參與訓練的數據不具備很好的判別或擬合能力，這種情況下，模型是過擬合的。

用一個通俗的例子來說明：

假定你家裡安排你去相親，告訴你女方在某某餐廳等你。

若你家裡人告訴你，女方穿裙子，披肩長發。結果你進去，發現有好幾個位置都是穿裙子、披肩長發的女生，此時你無法判斷是哪一個，這說明你了解女生身上的特徵不夠多，是欠擬合的。

若你家裡人告訴你，女方穿裙子，戴了個帽子，披肩長發，手機殼是哆啦A夢，眉角有顆痣。結果女方覺得餐廳太熱，進餐廳沒多久就脫了帽子，你進去後發現有一個女生其它條件都符合，就是沒戴帽子，你就因此認定她不是你相親對象，這說明你了解的女生的特徵太多，對於稍微有點不同的特徵，你就做出了錯誤判斷，這是過擬合的。

若家裡人告訴你，女方穿裙子，披肩長發，眉角有顆痣。你進去後發現，雖然穿裙子的有好幾個，披肩長發的也不少，但眉角有痣的就那一位，即便那位還戴了個帽子，也不妨礙你認為她就是你相親對象，於是你準確地走到了她面前開始了尷尬的交流，這是合理的擬合。

在這個例子中，裙子，披肩長發都是女生很普遍的特徵，眉角的痣和裙子、披肩長發的組合是她特有的特徵，手機殼和戴帽子這屬於偶然的特徵，不能因為她換了手機殼或沒戴帽子就不認識這人了。過擬合在於將偶然的特徵也作為識別身份的標誌，而欠擬合在於了解的特徵的特徵不夠多，在機器學習中表示模型的學習能力不夠，無法學到足夠的數據特徵。

欠擬合的特點：訓練的損失值很大，且測試的損失值也很大。

過擬合的特點：訓練的損失值足夠小，而測試的損失值很大。

對於一個足夠複雜度或足夠參數量的模型或神經網絡來說，隨着訓練的進行，會經歷一個「欠擬合-適度擬合-過擬合」的過程。

對於一個複雜度不夠的模型或參數量太少的神經網絡來說，只有欠擬合。