第四章:朴素贝叶斯法
第四章
It's a Title Here
1
基本方法
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。基于特征独立条件的独立假设学习输入输出的联合概率分布。
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y),具体的学习先验概率分布和条件概率分布,于是学习到联合概率分布。朴素贝叶斯法对条件概率分布作了条件独立性的假设,这是一个较强的条件假设。条件独立假设等于说用于分类的特征在类确定的条件下都是条件独立的,这一假设使朴素贝叶斯法变得简单,但是会牺牲准确率。朴素贝叶斯法实际上学习到的是生成数据的机制,所以属于生成模型。
朴素贝叶斯法分类时,对给的的输入x,通过学习到的模型计算后验概率分布,将后验概率最大的类作为x的类的输出。后验概率计算根据贝叶斯定理进行。
2
后验概率最大化的含义
It's a Title Here
朴素贝叶斯法将实例分到后验概率最大的类中,等价于期望风险最小化
3
朴素贝叶斯法的参数估计
极大似然估计
学习与分类算法,详见1基本方法,先计算出先验概率和条件概率,对于给定的实例计算后验概率,选择后验概率最大的确定实例x的类。
例题:试由下表的训练数据学习一个朴素贝叶斯分类器并确定的类标记,表中为特征,为类标记。
贝叶斯估计
对于x的某个特征的取值没有在先验中出现的情况 ,如果用极大似然估计就会出现所要估计的概率值为0的情况。这样会影响后验概率的计算结果,使分类产生偏差。出现这种情况的原因通常是因为数据集不能全覆盖样本空间,出现未知的情况处理的策略就是做平滑。用贝叶斯估计估计解决,即在随机变量的各个取值的频数上赋予一个正数λ,λ=0时就是极大似然估计,λ=1时称为拉普斯平滑。拉普拉斯平滑相当于给未知变量给定了先验概率。
4
习题
4.1 用极大似然估计推出朴素贝叶斯法中的概率估计公式
4.2 用贝叶斯估计推出朴素贝叶斯法中的概率估计公式