文本分類問題中的一些指標

2022 年 4 月 22 日
筆記

用這個隨筆來記錄一下評價分類模型中的一些性能指標：

1.混淆矩陣（confusion matrix）

混淆矩陣的格式如下：

其中：
TP：預測值為正，真實值也為正，即正確預測出的正樣本個數；
TN：預測值為負，真實值也為負，即正確預測出的負樣本個數；
FP：預測值為正，真實值為負，即錯誤預測出的負樣本個數（本來為負，被認為是正）；
FN：預測值為負，真實值為正，即錯誤預測出的正樣本個數（本來為正，被認為是負）。
（可見，縮寫中的T為正確預測的含義，而F則代表預測錯誤；P為預測為正，N為預測為負）
（因為P代表positive，positive具有「陽性的、結果積極的含義」，這裡對應著預測為正；相反的，negative代表預測結果為負）

第一行為預測值為正的所有樣本之和，為TP+FP；
第二行為預測值為負的所有樣本之和，為FN+TN；
第一列為真實值為正的所有樣本之和，為TP+FN;
第二列為真實值為負的所有樣本之和，為FP+TN。

通過混淆矩陣，我們可以計算如下指標：
準確率：precision = TP / TP+FP，即該分類器預測出的正樣本中，真實為正的比例；
召回率：recall = TP / TP+FN，即所有真實正樣本中，分類器所能找到的比例；
精確率：accuracy = TP+TN / all，即該分類器預測正確佔全部樣本的比例。

兩類錯誤：
Ⅰ型錯誤（假陽性FP）：即分類器將錯誤的誤判為正確的，亦被稱為「誤判」；
Ⅱ型錯誤（假陰性FN）：即分類器將正確的誤判為錯誤的，亦被稱為「漏判」。

有一張很直觀的圖片來顯示這幾項指標的作用：

這張圖展示了當高precision、低accuracy時，樣本會聚集在某一處，但不是靶心，因為這時在預測為正的當中正確的很多，但是預測正確的佔比並不高；而當高accuracy、低precision時，樣本會在靶心周圍分布，因為此時預測正確的佔全部樣本的比例很高，但是其中預測為正的真實為正的較少。