vlambda博客
学习文章列表

人话聊概率:谈谈朴素贝叶斯原理

哈喽各位,好久不见。

先做一道语文题吧:对以下名言和作者做匹配。



1.真的猛士,敢于直面惨淡的人生,敢于正视淋漓的鲜血 ---某民国时期作家

2.才华是刀刃,辛苦是磨刀石,再锋利的刀刃,苦日久不磨,也会生锈 ---某位现当代作家

3.这时候最热闹的,要数树上的蝉声和水里的蛙声;但热闹是它们的,我什么也没有 ---某位民国时期散文家

4.我将于茫茫人海寻访我唯一灵魂的伴侣,得之,我幸。不得,我命---某位民国时期诗人

A朱自清    B鲁迅   C徐志摩   D老舍   


正确答案是:B D A C

相信聪明的你一定答对了吧   ╮( ̄▽ ̄")╭

对作家来说,语言风格是比自身容貌更重要的特征。

题目之中的  鲁迅 和 老舍 都是笔者颇为喜欢的作家。

然而他俩的语言风格就有着很大的区别。

比如,同样是写 “雪”:

“朔方的雪花在纷飞之后,却永远如粉,如沙,他们决不粘连,撒在屋上,地上,枯草上,就是这样。屋上的雪是早已就有消化了的,因为屋里居人的火的温热。别的,在晴天之下,旋风忽来,便蓬勃地奋飞,在日光中灿灿地生光,如包藏火焰的大雾,旋转而且升腾,弥漫太空,使太空旋转而且升腾地闪烁。”     ---鲁迅《野草集》


最妙的是下点小雪呀。看吧,山上的矮松越发的青黑,树尖上顶着一髻儿白花,好像日本看护妇。山尖全白了,给蓝天镶上一道银边。山坡上,有的地方雪厚点,有的地方草色还露着,这样,一道儿白,一道儿暗黄,给山们穿上一件带水纹的花衣                 ---老舍《济南的冬天》


鲁迅的文笔无愧其革命家的称号,字里行间寄托了昂扬奋飞的激情;而老舍的文字则显得平实生动,偶尔还夹杂着很多北方方言口语,让人感到亲切。


作为感情丰富的人,我们可以通过主观的阅读体验来判断两位作家的语言风格。

然而没有感情的计算机可以做得到麽?

可以,借助朴素贝叶斯原理。


20世纪60年代,有学者依靠这一原理,为佚失了200多年的《联邦党人文集》找到了真正的作者。

本文以鲁迅和老舍为例,解释一下朴素贝叶斯原理是如何工作的。

人话聊概率:谈谈朴素贝叶斯原理

比如,在这个档案袋中👆,你找到了一篇民国时代的手稿,内容如链接:👇

 (点击可见)

假设我们知道它的作者或是鲁迅,或是老舍。

在我们对他们二人风格并不熟悉的情况下,先初步判断:此篇文字为鲁迅或老舍所作的概率各占50%

人话聊概率:谈谈朴素贝叶斯原理

接下来,让我们更进一步,从高频词汇的角度去了解两位作家的语言风格,去看看二人平时最常说些什么。

在《鲁迅全集》中最常出现的词有:“没有”(1412次);“一个”(1258次);“他们”(963次)...

人话聊概率:谈谈朴素贝叶斯原理

对于老舍,最高频使用的词语是:“他们”(2058次);“可是”(2010次);“没有”(1689次)

人话聊概率:谈谈朴素贝叶斯原理

通过词频分析,我们还发现了一些有趣的现象:

  • 当表示语气转折的时候,鲁迅喜欢说“然而”(761次),而老舍喜欢用“可是”(2010次)

  • 有一些词汇属于鲁迅特色,比如:"至于"(180次),“先前”(206次),而老舍的特色词汇如:“咱们”(413次),“有点”(357次)...

(透过这些文字,仿佛看到了喧闹的老北京胡同儿,有没有 ˇ▽ˇ 


接下来,让我们从词频角度来分析一下这份佚名的手稿:高频词汇有:“我们”(35次),“他们”(32次),“两个”(16次),“地球”(12次)...

人话聊概率:谈谈朴素贝叶斯原理

很好,让我们根据以上信息开始分析吧!

===================================

首先,“我们”这个词对两位作家来说都是高频词:对于鲁迅,包含该词的文章篇数占总文章篇数的59.93% ;相应的,老舍的篇数占比是 71.23%。


凭借以上信息,我们可以对之前的假设进行修正:如图中绿色部分。

当手稿内容包含了“我们”两个字的情况下,对概率做出调整:

P(鲁迅):50% * 59.93%  

P(老舍):50% * 71.23%

人话聊概率:谈谈朴素贝叶斯原理
======================================

继而,我们分析手稿中的第二个高频词“他们”:该词在鲁迅作品中的包含率是 65.66% ,而老舍的包含率 86.30%


同理我们继续做出调整,如图中黄色部分:当手稿中包含 “我们” 和 “他们”的情况下:

P(鲁迅):50% * 59.93%  *65.66%

P(老舍):50% * 71.23%*86.30%

人话聊概率:谈谈朴素贝叶斯原理
==================================================

同理,让我们看一下第三个高频词 “两个”,它鲁迅作品中的包含率是 30.30% ; 老舍作品的包含率 68.95%


继续做出调整,如图中红色部分:当手稿中包含“我们” 、 “他们”、“两个”的情况下:

P(鲁迅):50% * 59.93%  *65.66%* 30.30% 

P(老舍):50% * 71.23%*86.30%* 68.95%

人话聊概率:谈谈朴素贝叶斯原理
==================================================

让我们算一下:

P (鲁迅) = 50% * 59.93%  *65.66%* 30.30%  = 5.96%

P(老舍) =  50% * 71.23%*86.30%* 68.95% = 21.19%


P (鲁迅) : P(老舍) = 21.95% : 78:05%


到目前为止,此手稿属于老舍的概率要更大一些。随着高频词分析的增加,老舍的概率会越来越大。


事实上手稿中的文字节选自老舍的《猫城记》第11篇。

很好,通过统计学原理,我们找到了文件作者,good job !


以上便是朴素贝叶斯原来的妙处:我们可以根据更多的信息来不断修正最初的判断,而这也是当前热门的机器学习所依据的原理之一了。