文本分類問題中的一些指標

  • 2022 年 4 月 22 日
  • 筆記

用這個隨筆來記錄一下評價分類模型中的一些性能指標:

1.混淆矩陣(confusion matrix)

混淆矩陣的格式如下:
image

其中:
  TP:預測值為正,真實值也為正,即正確預測出的正樣本個數;
  TN:預測值為負,真實值也為負,即正確預測出的負樣本個數;
  FP:預測值為正,真實值為負,即錯誤預測出的負樣本個數(本來為負,被認為是正);
  FN:預測值為負,真實值為正,即錯誤預測出的正樣本個數(本來為正,被認為是負)。
  (可見,縮寫中的T為正確預測的含義,而F則代表預測錯誤;P為預測為正,N為預測為負)
  (因為P代表positive,positive具有「陽性的、結果積極的含義」,這裡對應著預測為正;相反的,negative代表預測結果為負)

  第一行為預測值為正的所有樣本之和,為TP+FP;
  第二行為預測值為負的所有樣本之和,為FN+TN;
  第一列為真實值為正的所有樣本之和,為TP+FN;
  第二列為真實值為負的所有樣本之和,為FP+TN。

通過混淆矩陣,我們可以計算如下指標:
  準確率:precision = TP / TP+FP,即該分類器預測出的正樣本中,真實為正的比例;
  召回率:recall = TP / TP+FN,即所有真實正樣本中,分類器所能找到的比例;
  精確率:accuracy = TP+TN / all,即該分類器預測正確佔全部樣本的比例。

兩類錯誤:
  Ⅰ型錯誤(假陽性FP):即分類器將錯誤的誤判為正確的,亦被稱為「誤判」
  Ⅱ型錯誤(假陰性FN):即分類器將正確的誤判為錯誤的,亦被稱為「漏判」

有一張很直觀的圖片來顯示這幾項指標的作用:

image

  這張圖展示了當高precision、低accuracy時,樣本會聚集在某一處,但不是靶心,因為這時在預測為正的當中正確的很多,但是預測正確的佔比並不高;而當高accuracy、低precision時,樣本會在靶心周圍分布,因為此時預測正確的佔全部樣本的比例很高,但是其中預測為正的真實為正的較少。

2.接受者操作特徵曲線(ROC Curve)

未完待續

3.AUC(Area Under Curve)

4.KS值(Kolmogorov-Smirnov)

5.提升度(Lift)