實戰：手把手教你用樸素貝葉斯對文檔進行分類

2020 年 2 月 19 日
筆記

樸素貝葉斯分類最適合的場景就是文本分類、情感分析和垃圾郵件識別。其中情感分析和垃圾郵件識別都是通過文本來進行判斷。所以樸素貝葉斯也常用於自然語言處理 NLP 的工具。

sklearn 機器學習包

sklearn 的全稱叫 Scikit-learn，它給我們提供了 3 個樸素貝葉斯分類算法，分別是高斯樸素貝葉斯（GaussianNB）、多項式樸素貝葉斯MultinomialNB）和伯努利樸素貝葉斯（BernoulliNB）。

這三種算法適合應用在不同的場景下，我們應該根據特徵變量的不同選擇不同的算法：

高斯樸素貝葉斯：特徵變量是連續變量，符合高斯分佈，比如說人的身高，物體的長度。 多項式樸素貝葉斯：特徵變量是離散變量，符合多項分佈，在文檔分類中特徵變量體現在一個單詞出現的次數，或者是單詞的 TF-IDF 值等。 伯努利樸素貝葉斯：**特徵變量是布爾變量，符合 0/1 分佈**，在文檔分類中特徵是單詞是否出現。

伯努利樸素貝葉斯是以文件為粒度，如果該單詞在某文件中出現了即為 1，否則為 0。而多項式樸素貝葉斯是以單詞為粒度，會計算在某個文件中的具體次數。

> 如身高、體重這種自然界的現象就比較適合用高斯樸素貝葉斯來處理。而文本分類是使用多項式樸素貝葉斯或者伯努利樸素貝葉斯。

什麼是 TF-IDF 值呢？

TF-IDF 是一個統計方法，用來評估某個詞語對於一個文件集或文檔庫中的其中一份文件的重要程度。

詞頻 TF計算了一個單詞在文檔中出現的次數，它認為一個單詞的重要性和它在文檔中出現的次數呈正比。

逆向文檔頻率 IDF，是指一個單詞在文檔中的區分度。它認為一個單詞出現在的文檔數越少，就越能通過這個單詞把該文檔和其他文檔區分開。IDF 越大就代表該單詞的區分度越大。

所以 TF-IDF 實際上是詞頻 TF 和逆向文檔頻率 IDF 的乘積。這樣我們傾向於找到 TF 和 IDF 取值都高的單詞作為區分，即這個單詞在一個文檔中出現的次數多，同時又很少出現在其他文檔中。這樣的單詞適合用於分類。

TF-IDF 如何計算