分類模型性能的評判方法-ROC分析

一、混淆矩陣

二、引入ROC曲線

  如上第一幅圖,藍色高斯表示真實值為陰性,紅色高斯表示真實值為陽性。A,B,C代表不同的閾值,閾值線左邊表示預測值為陰性,閾值線右邊表示預測值為陽性。閾值從A到C,由此繪製處第二幅圖的曲線(粗線),也即ROC曲線。

 

  ROC曲線中,

  橫坐標:假陽性率,FPR = FP/(FP+TN)

  縱坐標:正陽性率(召回率),TPR = TP/(TP+FN)

  曲線距離左上角越近,說明分類器效果越好。我們用一個標量值AUC來量化它。

四、AUC

  AUC值為ROC曲線所覆蓋的區域面積,顯然,AUC越大,分類器分類效果越好。

  AUC = 1,是完美分類器,採用這個預測模型時,不管設定什麼閾值都能得出完美預測。絕大多數預測的場合,不存在完美分類器。

  0.5 < AUC < 1,優於隨機猜測。這個分類器(模型)妥善設定閾值的話,能有預測價值。

  AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值。

  AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優於隨機猜測。