vlambda博客
学习文章列表

九道门丨还不懂朴素贝叶斯?不如看看这篇文章



     贝叶斯模型,听到这个专业名词,很多关注数据分析行业但是并没有真正入门的人可能会觉得既熟悉又陌生。在数据分析里面它是用来预测的,也就是用贝叶斯统计来进行概率预测。这样解释大家对它是不是更熟悉些?

    不仅是数据分析行业,贝叶斯模型可以应用在大数据、机器学习、数据挖掘、金融行业、医疗行业等众多行业场景中。

    今天我就用生活中的小案例通俗的跟大家来介绍如何使用贝叶斯模型。

▌条件概率

    贝叶斯统计有一个重要知识点就是条件概率:

    指事件A在事件B发生的条件下发生的概率,条件概率表示为:P(A|B)。

    举例:你走在大街上,接下来会有8个人中的一个从你身边路过,其中4个男生、4个女生。

    问题1:如果从你身边路过一个人,这个人是女生的概率是多少?

    回答1:八个人每个人都有可能遇到,那么遇到女生的概率就是1/2。男生的概率也是1/2。

    我们就可以得到P(male)=1/2,P(female)=1/2。这样还是很简单的,那么我们假定已经知道是一个女生,那女生是长头发的概率是多少呢?已知只有一名女生是长头发。

    那么P(long|female)=1/4.

    所以条件概率的计算公式就是:P(A|B)=P(AB)/P(B)
 
 
    下面我们先来理解一下贝叶斯公式:

    条件概率公式两边都乘以P(B)得到:P(AB)=P(A|B)*P(B)

    也就是说,A和B同时发生的概率等于B条件下A发生的概率乘以B发生的概率;

    只要A和B是两个相互独立,我们就可以得到:P(AB)=P(BA)=P(B|A)*P(A)

    这个公式表示A和B同时发生的概率等于A条件下B发生的概率乘以A发生的概率;

    接着我们再带入条件概率公式:P(A|B)=P(B|A)*P(A)/P(B)

    公式解读:如果已知P(B|A)的情况下,要求P(A|B),那么可以使用上述计算方法。其中P(A)被称为先验概率;P(B|A)被称为后验概率;P(B)被称为全概率。

▌应用

    贝叶斯概率计算是机器学习的核心之一,因为我们不知道现实是什么样子的,所以就需要有一个合理的猜测作为基础。

    这里我们放到实际案例中来看一下,以分类为例,宠物医院经常会接收一些生病的小动物,数据分布情况如下:

宠物
症状
疾病
呕吐、腹泻
肠胃炎
乌龟
龟壳腐烂
皮肤病
仓鼠
呕吐、腹泻
肠胃炎
呕吐、腹泻
肠胃炎
抓挠某个部位
皮肤病
呕吐、腹泻
肠胃炎
抓挠某个部位
皮肤病

    那么现在来了一只呕吐、腹泻的小狗,请问得肠胃炎的概率有多大?

    我们根据贝叶斯定理就知道A事件是得肠胃炎,B事件是一只呕吐、腹泻的小狗。

P(A|B)=P(B|A)*P(A)/P(B)

    首先我们要算出P(B|A)的概率也就是肠胃炎中呕吐、腹泻的小狗是P(B|A)=1/4

    所以P(A|B)=7/8,因此这只小狗得肠胃炎的概率是7/8,那么我们也可以算出皮肤病的概率作为对比,看最有可能得的是什么病。

    这就是贝叶斯分类器的基本使用方法,根据某些特征来实现分类。怎么样?是不是很简单,赶紧试试吧。



往期回顾