vlambda博客
学习文章列表

朴素贝叶斯:容易理解但不naive的分类模型(原理及应用)

 朴素贝叶斯,应该是最最容易理解的机器学习模型之一了。


关于机器学习模型,之前分享了、、。今天继续和大家分享关于线性分类的常见算法:朴素贝叶斯分类。



01

关于贝叶斯定理


熟悉概率论的朋友应该都了解贝叶斯定理。既然都是“贝叶斯”,大家应该也猜到了,贝叶斯分类和贝叶斯定理是密切相关的。


(1)贝叶斯定理


因此,在讲贝叶斯分类之前,首先简单聊聊贝叶斯定理吧。


首先看看定理的具体内容:



这里条件概率等基础概率论相关内容就不说了,公式的成立其实是比较容易理解的。


通俗的讲,其实就是当我们不知道某个事件发生概率时,我们可以依靠和这个事件相关的其他事件发生的概率去推测我们想知道的事件发生的概率。


这里有个重要的思想,就是用先验概率及可能性函数去计算后验概率。


(2)先验概率与后验概率


什么是先验概率、后验概率?我们对上文中的贝叶斯定理进行拆分,就有了下图:


朴素贝叶斯:容易理解但不naive的分类模型(原理及应用)


其中,先验概率我们是已知的,可能性函数可以计算出来。因此,通过贝叶斯公式,我们可以计算后验概率。


(3)举个例子


按照上面公式,我们假设事件:


  • 事件A:同事小王喜欢别人

  • 事件B:同事小王请别人看电影


问题是:有一天小王请我看电影,我想知道他喜欢我的概率有多少。


想回答这个问题,其实就是想知道在小王喜欢我的前提下,请我看电影有多大概率(即后验概率)。按照贝叶斯公式,我们只要计算出小王请别人看电影的概率(即先验概率),以及小王喜欢别人的概率、以及小王请别人看电影是喜欢别人的概率,即可。


上面提到的这些概率,应该通过历史数据进行计算即可。历史数据可能是下面的样子:



关于计算过程,这里应该非常容易了,这里不一一罗列了。纯套公式即可。大家可以试试,这里的结果应该是0.67,因此请我看电影,大概率代表喜欢我。


关于贝叶斯定理以及相关的概率知识,我们后续讲《概率论》相关的内容时,会再展开讲,这里就先说这些。



02


朴素贝叶斯分类


其实上文中关于贝叶斯分类的思想,已经是有所提及了。


(1)基本思想


上面给出了一个例子,其实就是和贝叶斯分类很像了。上面求解的是小王喜欢我的概率,其实也可以求小王不喜欢我的概率。喜欢与不喜欢,本质上就是分类。


是的,贝叶斯分类的基本思想,就是分别求解在所有的分类情况下,不同的后验概率,取后验概率最高的那个类别,作为分类类别。


因此在上面的例子中,我们需要分别求解小王喜欢我的概率(0.67),不喜欢我的概率(0.33),然后取最大值,即喜欢我概率更高,作为分类类别。


当分类类别有多个时,比如对人种进行分类,有白种人、黄种人、黑种人等,那就分别计算各个人种的后验概率,取最大即可。


(2)为什么是朴素


最后聊聊,为啥叫朴素贝叶斯分类?


这里的朴素,主要指的是各个特征是相互独立的。


(3)应用步骤


主要的步骤其实上文有所提及,可以参考下图:



关于朴素贝叶斯分类的内容,就简单分享这些。欢迎大家继续关注~