推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 大数据观察 > 【大数据统计】贝叶斯分类方法

【大数据统计】贝叶斯分类方法

大数据观察 2018-10-27

大数据观察

了解大数据,关注大数据观察吧!




每个想了解最新大数据资讯的人,都关注了我

文 / 数据君


贝叶斯分类方法是非常成熟的统计学分类方法,它主要用来预测类成员间关系的可能性。


【大数据统计】贝叶斯分类方法


比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。

贝叶斯分类方法是基于贝叶斯定理的,已经有研究表明,朴素贝叶斯分类方法作为一种简单贝叶斯分类算法甚至可以跟决策树和神经网络算法相媲美。

贝叶斯定理公式如下:


【大数据统计】贝叶斯分类方法


其中X表示n个属性的测量描述;H为某种假设,比如假设某观察值X属于某个特定的类别C;

对于分类问题,希望确定P(H|X),即能通过给定的X的测量描述,来得到H成立的概率,也就是给出X的属性值,计算出该观察值属于类别C的概率。

因为P(H|X)是后验概率,所以又称其为在条件X下,H的后验概率。


举例来说,假设数据属性仅限于用教育背景和收入来描述顾客,而X是以为硕士学历,收入10万元的顾客。

假定H表示假设我们的顾客将购买苹果手机,则P(H|X)表示当我们知道顾客的教育背景和收入情况后,该顾客将购买苹果手机的概率;

相反,P(X|H)则表示如果已知顾客将购买苹果手机,则该顾客是硕士学历并且收入10万元的概率;

而P(X)则是X的先验概率,表示顾客中的某个人属于硕士学历且收入10万元的概率;P(H)也是先验概率,只不过是任意给定顾客将购买苹果手机的概率,而不会去管他们的教育背景和收入情况。

从上面的介绍可见,相比于先验概率P(H),后验概率P(H|X)基于了更多的信息(比如顾客的信息属性),而P(H)是独立于X的。


贝叶斯定理是朴素贝叶斯分类法的基础,如果给定数据集里有M个分类类别,通过朴素贝叶斯分类法,可以预测给定观察值是否属于具有最高后验概率的特定类别,也就是说,朴素贝叶斯分类方法预测X属于类别C时,表示当且仅当:


【大数据统计】贝叶斯分类方法


此时如果最大化P(Ci|X),其P(Ci|X)最大的类Ci被称为最大后验假设,

根据贝叶斯定理:


【大数据统计】贝叶斯分类方法


可知,由于P(X)对于所有的类别是均等的,因此只需要P(X|Ci)P(Ci)取最大即可。

为了预测一个未知样本X的类别,可对每个类别Ci估算相应的P(X|Ci)P(Ci)。样本X归属于类别Ci,当且仅当P(Ci|X)P(Cj|X)1jmji贝叶斯分类方法在数据化运营实践中主要用于分类问题的归类等应用场景。




主题 |贝叶斯分类方法

插图 | 网络来源




作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删


“嘿,长按二维码,跟我一起有趣”

我想给你一个理由 继续面对这操蛋的生活

版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《【大数据统计】贝叶斯分类方法》的版权归原作者「大数据观察」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

关注大数据观察微信公众号

大数据观察微信公众号:shuju_net

大数据观察

手机扫描上方二维码即可关注大数据观察微信公众号

大数据观察最新文章

精品公众号随机推荐