朴素贝叶斯相关算法介绍
先验概率P(A):在不考虑任何情况下,A事件发生的概率。
条件概率P(B|A):A事件发生的情况下,B事件发生的概率。
后验概率P(A|B):在B事件发生之后,对A事件发生的概率的 重新评估。
全概率:如果A和A'构成样本空间的一个划分,那么事件B的概率为:A和A'的概率分别乘以B对这两个事件的概率之和。
基于条件概率的贝叶斯定律数学公式:实际上就是求后验概率(条件概率与全概率公式)
朴素贝叶斯算法
朴素贝叶斯(Naive Bayes,NB)是基于 “特征之间是独立的” 这一朴素假设,应用贝叶斯定理的监督学习算法对应给定的样本X的特征向量 x1,x2,...,xm;该样本X的类别y的概率可以由贝叶斯公式得到:
这个假设仅仅是为了解释模型。
推导
特征属性之间是独立的,所以得到:
公式优化:
在给定样本的情况下,P(x1,x2,....xm)是常数,因此常量并不会产生影响,所以可以得到:
从而:
朴素贝叶斯算法流程:
1、设x={a1,a2,...,am}为待分类项,其中a为x的一个特征属性;
2、类别集合为C={y1,y2,...,yn};
3、分别计算P(y1|x),P(y2|x),... ,P(yn|x)的值(贝叶斯公式);
4、如果P(yk|x)=max{P(y1|x),P(y2|x),... ,P(yn|x)},那么认为x为yk类型。
通常用于增量模型(随着数据增加,实时训练模型)。
基本上是在文本分类中。
欢迎访问中医临床智能辅助决策系统http://www.tcmcds.com/
中国中医科学院中医药信息研究所
中医药大健康智能研发中心