当前位置：首页 > news >正文

Lucas带你手撕机器学习——朴素贝叶斯

news 2025/7/15 4:09:32

朴素贝叶斯算法（Naïve Bayes）

朴素贝叶斯是一种基于贝叶斯定理的简单而高效的分类算法。它在许多实际应用中表现出色，尤其是在文本分类、情感分析和垃圾邮件过滤等任务中。朴素贝叶斯算法的核心思想是使用条件概率来预测目标类别，基于特征之间的独立性假设。

1. 贝叶斯定理回顾

在讨论朴素贝叶斯之前，首先回顾一下贝叶斯定理。贝叶斯定理描述了后验概率与先验概率之间的关系，可以表示为：
在这里插入图片描述

其中：

(P(A|B))：在事件 (B) 已知的情况下事件 (A) 发生的概率（后验概率）。
(P(B|A))：在事件 (A) 已知的情况下事件 (B) 发生的概率（似然概率）。
(P(A))：事件 (A) 发生的先验概率。
(P(B))：事件 (B) 发生的总概率。

2. 朴素贝叶斯算法的假设

朴素贝叶斯的关键在于“朴素”的假设：特征之间相互独立。这一假设在许多实际问题中并不成立，但在很多情况下，即使这一假设不完全成立，朴素贝叶斯依然能够产生令人满意的结果。

具体来说，给定一个样本 (X = (x_1, x_2, \ldots, x_n))，其所属类别 (C) 的后验概率可以表示为：

在这里插入图片描述

由于 (P(X)) 对所有类别都是相同的，我们可以只关注 (P(X|C) \cdot P©) 的最大值。根据独立性假设，可以将 (P(X|C)) 表示为特征条件概率的乘积：

在这里插入图片描述

因此，最终的分类决策可以表示为：

在这里插入图片描述

3. 朴素贝叶斯的类型

朴素贝叶斯算法主要有三种类型，具体取决于特征的类型：

高斯朴素贝叶斯（Gaussian Naïve Bayes）：假设特征遵循高斯分布，适用于连续特征。
多项式朴素贝叶斯（Multinomial Naïve Bayes）：适用于离散特征，尤其在文本分类中应用广泛，适合处理词频数据。
伯努利朴素贝叶斯（Bernoulli Naïve Bayes）：用于二元特征，通常在特征存在或不存在的情况下使用。

4. 朴素贝叶斯的优缺点

4.1 优点

简单高效：朴素贝叶斯算法的实现简单，计算速度快，尤其在处理大规模数据集时表现出色。
适应性强：在特征数目多的情况下仍然能够有效工作。
性能良好：在许多实际应用中，尽管其假设比较强，但模型仍能产生令人满意的性能。

4.2 缺点

独立性假设：特征之间的独立性假设在许多实际应用中不成立，可能影响分类性能。
数据稀疏问题：当某个特征类别组合在训练集中未出现时，可能会导致零概率问题。可以通过拉普拉斯平滑（Laplace smoothing）来缓解这个问题。

5. 应用实例

朴素贝叶斯算法在多个领域有广泛的应用，包括：

文本分类：如垃圾邮件过滤、情感分析、新闻分类等。
推荐系统：基于用户行为特征进行推荐。
医疗诊断：根据症状和历史数据对疾病进行分类。

6. 用 Python 实现朴素贝叶斯

下面是一个使用 Python 的 scikit-learn 库实现朴素贝叶斯分类器的示例，采用高斯朴素贝叶斯分类器。

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建高斯朴素贝叶斯分类器
gnb = GaussianNB()# 训练模型
gnb.fit(X_train, y_train)# 进行预测
y_pred = gnb.predict(X_test)# 评估模型
print("准确率:", accuracy_score(y_test, y_pred))
print("\n分类报告:\n", classification_report(y_test, y_pred))
print("混淆矩阵:\n", confusion_matrix(y_test, y_pred))