分类模型性能的评判方法-ROC分析

一、混淆矩阵

二、引入ROC曲线

  如上第一幅图,蓝色高斯表示真实值为阴性,红色高斯表示真实值为阳性。A,B,C代表不同的阈值,阈值线左边表示预测值为阴性,阈值线右边表示预测值为阳性。阈值从A到C,由此绘制处第二幅图的曲线(粗线),也即ROC曲线。

 

  ROC曲线中,

  横坐标:假阳性率,FPR = FP/(FP+TN)

  纵坐标:正阳性率(召回率),TPR = TP/(TP+FN)

  曲线距离左上角越近,说明分类器效果越好。我们用一个标量值AUC来量化它。

四、AUC

  AUC值为ROC曲线所覆盖的区域面积,显然,AUC越大,分类器分类效果越好。

  AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。

  0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

  AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。

  AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。