朴素贝叶斯的基本算法和高斯混合朴素贝叶斯算法

2019 年 11 月 20 日
笔记

2. 朴素贝叶斯原理

朴素贝叶斯算法基于贝叶斯定理和特征条件独立假设。

贝叶斯定理
特征条件独立：特征条件独立假设?X的?n个特征在类确定的条件下都是条件独立的。大大简化了计算过程，但是因为这个假设太过严格，所以会相应牺牲一定的准确率。这也是为什么称呼为朴素的原因。

4.1 朴素贝叶斯的主要优点

朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。
对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。
对缺失数据不太敏感，算法也比较简单，常用于文本分类。

4.2 朴素贝叶斯的主要缺点

朴素贝叶斯模型的特征条件独立假设在实际应用中往往是不成立的。
如果样本数据分布不能很好的代表样本空间分布，那先验概率容易测不准。
对输入数据的表达形式很敏感。

详细案例

算法杂货铺——分类算法之朴素贝叶斯分类

http://uml.org.cn/sjjmwj/201310221.asp

实现朴素贝叶斯的基本算法和高斯混合朴素贝叶斯算法

实战项目代码下载：

关注微信公众号 datanlp 然后回复 贝叶斯 即可获取下载链接。

class NaiveBayesBase(object):

def __init__(self):

pass

def fit(self, trainMatrix, trainCategory):

'''

朴素贝叶斯分类器训练函数，求：p(Ci),基于词汇表的p(w|Ci)

Args:

trainMatrix : 训练矩阵，即向量化表示后的文档（词条集合）

trainCategory : 文档中每个词条的列表标注

Return:

p0Vect : 属于0类别的概率向量(p(w1|C0),p(w2|C0),…,p(wn|C0))

p1Vect : 属于1类别的概率向量(p(w1|C1),p(w2|C1),…,p(wn|C1))

pAbusive : 属于1类别文档的概率

'''

numTrainDocs = len(trainMatrix)

# 长度为词汇表长度

numWords = len(trainMatrix[0])

# p(ci)

self.pAbusive = sum(trainCategory) / float(numTrainDocs)

# 故在初始化时，将所有词的出现数初始化为1，分母即出现词条总数初始化为2

p0Num = np.ones(numWords)

p1Num = np.ones(numWords)

p0Denom = 2.0

p1Denom = 2.0

for i in range(numTrainDocs):

if trainCategory[i] == 1:

p1Num += trainMatrix[i]

p1Denom += sum(trainMatrix[i])

else:

p0Num += trainMatrix[i]

p0Denom += sum(trainMatrix[i])

# p(wi | c1)

# 为了避免下溢出（当所有的p都很小时，再相乘会得到0.0，使用log则会避免得到0.0）

self.p1Vect = np.log(p1Num / p1Denom)

# p(wi | c2)

self.p0Vect = np.log(p0Num / p0Denom)

return self

朴素贝叶斯的基本算法和高斯混合朴素贝叶斯算法

2. 朴素贝叶斯原理

4.1 朴素贝叶斯的主要优点

4.2 朴素贝叶斯的主要缺点

实现朴素贝叶斯的基本算法和高斯混合朴素贝叶斯算法

VirMach 便宜 VPS

QNews

朴素贝叶斯的基本算法和高斯混合朴素贝叶斯算法

2. 朴素贝叶斯原理

4.1 朴素贝叶斯的主要优点

4.2 朴素贝叶斯的主要缺点

实现朴素贝叶斯的基本算法和高斯混合朴素贝叶斯算法

分享此文：

Related Posts

如何让你写的爬虫速度像坐火箭一样快【并发请求】

中小企业如何选择腾讯云服务器的价格与配置？

美团DB数据同步到数据仓库的架构与实践

七种常见的数据分析法之：假设分析

VirMach 便宜 VPS

QNews

热门文章

热门搜寻