人话聊概率:谈谈朴素贝叶斯原理
哈喽各位,好久不见。
先做一道语文题吧:对以下名言和作者做匹配。
1.真的猛士,敢于直面惨淡的人生,敢于正视淋漓的鲜血 ---某民国时期作家
2.才华是刀刃,辛苦是磨刀石,再锋利的刀刃,苦日久不磨,也会生锈 ---某位现当代作家
3.这时候最热闹的,要数树上的蝉声和水里的蛙声;但热闹是它们的,我什么也没有 ---某位民国时期散文家
4.我将于茫茫人海寻访我唯一灵魂的伴侣,得之,我幸。不得,我命---某位民国时期诗人
A朱自清 B鲁迅 C徐志摩 D老舍
正确答案是:B D A C
相信聪明的你一定答对了吧 ╮( ̄▽ ̄")╭
对作家来说,语言风格是比自身容貌更重要的特征。
题目之中的 鲁迅 和 老舍 都是笔者颇为喜欢的作家。
然而他俩的语言风格就有着很大的区别。
比如,同样是写 “雪”:
“朔方的雪花在纷飞之后,却永远如粉,如沙,他们决不粘连,撒在屋上,地上,枯草上,就是这样。屋上的雪是早已就有消化了的,因为屋里居人的火的温热。别的,在晴天之下,旋风忽来,便蓬勃地奋飞,在日光中灿灿地生光,如包藏火焰的大雾,旋转而且升腾,弥漫太空,使太空旋转而且升腾地闪烁。” ---鲁迅《野草集》
最妙的是下点小雪呀。看吧,山上的矮松越发的青黑,树尖上顶着一髻儿白花,好像日本看护妇。山尖全白了,给蓝天镶上一道银边。山坡上,有的地方雪厚点,有的地方草色还露着,这样,一道儿白,一道儿暗黄,给山们穿上一件带水纹的花衣 ---老舍《济南的冬天》
鲁迅的文笔无愧其革命家的称号,字里行间寄托了昂扬奋飞的激情;而老舍的文字则显得平实生动,偶尔还夹杂着很多北方方言口语,让人感到亲切。
作为感情丰富的人,我们可以通过主观的阅读体验来判断两位作家的语言风格。
然而没有感情的计算机可以做得到麽?
可以,借助朴素贝叶斯原理。
20世纪60年代,有学者依靠这一原理,为佚失了200多年的《联邦党人文集》找到了真正的作者。
本文以鲁迅和老舍为例,解释一下朴素贝叶斯原理是如何工作的。
比如,在这个档案袋中👆,你找到了一篇民国时代的手稿,内容如链接:👇
(点击可见)
假设我们知道它的作者或是鲁迅,或是老舍。
在我们对他们二人风格并不熟悉的情况下,先初步判断:此篇文字为鲁迅或老舍所作的概率各占50%
接下来,让我们更进一步,从高频词汇的角度去了解两位作家的语言风格,去看看二人平时最常说些什么。
在《鲁迅全集》中最常出现的词有:“没有”(1412次);“一个”(1258次);“他们”(963次)...
对于老舍,最高频使用的词语是:“他们”(2058次);“可是”(2010次);“没有”(1689次)
通过词频分析,我们还发现了一些有趣的现象:
当表示语气转折的时候,鲁迅喜欢说“然而”(761次),而老舍喜欢用“可是”(2010次)
有一些词汇属于鲁迅特色,比如:"至于"(180次),“先前”(206次),而老舍的特色词汇如:“咱们”(413次),“有点”(357次)...
(透过这些文字,仿佛看到了喧闹的老北京胡同儿,有没有 ˇ▽ˇ )
接下来,让我们从词频角度来分析一下这份佚名的手稿:高频词汇有:“我们”(35次),“他们”(32次),“两个”(16次),“地球”(12次)...
很好,让我们根据以上信息开始分析吧!
===================================
首先,“我们”这个词对两位作家来说都是高频词:对于鲁迅,包含该词的文章篇数占总文章篇数的59.93% ;相应的,老舍的篇数占比是 71.23%。
凭借以上信息,我们可以对之前的假设进行修正:如图中绿色部分。
当手稿内容包含了“我们”两个字的情况下,对概率做出调整:
P(鲁迅):50% * 59.93%
P(老舍):50% * 71.23%
继而,我们分析手稿中的第二个高频词“他们”:该词在鲁迅作品中的包含率是 65.66% ,而老舍的包含率 86.30%
同理我们继续做出调整,如图中黄色部分:当手稿中包含 “我们” 和 “他们”的情况下:
P(鲁迅):50% * 59.93% *65.66%
P(老舍):50% * 71.23%*86.30%
同理,让我们看一下第三个高频词 “两个”,它鲁迅作品中的包含率是 30.30% ; 老舍作品的包含率 68.95%
继续做出调整,如图中红色部分:当手稿中包含“我们” 、 “他们”、“两个”的情况下:
P(鲁迅):50% * 59.93% *65.66%* 30.30%
P(老舍):50% * 71.23%*86.30%* 68.95%
让我们算一下:
P (鲁迅) = 50% * 59.93% *65.66%* 30.30% = 5.96%
P(老舍) = 50% * 71.23%*86.30%* 68.95% = 21.19%
P (鲁迅) : P(老舍) = 21.95% : 78:05%
到目前为止,此手稿属于老舍的概率要更大一些。随着高频词分析的增加,老舍的概率会越来越大。
事实上手稿中的文字节选自老舍的《猫城记》第11篇。
很好,通过统计学原理,我们找到了文件作者,good job !
以上便是朴素贝叶斯原来的妙处:我们可以根据更多的信息来不断修正最初的判断,而这也是当前热门的机器学习所依据的原理之一了。