被广泛使用的文本挖掘,为什么值得学习?
被广泛使用的文本挖掘
为什么值得学习?
想学习文本挖掘,
这本书帮你轻松入门!
导读:文本挖掘就是通过分析文本,把其中的信息压缩后提取出来的一种技术。
在以互联网为核心,信息不断发展的今天,文本信息作为最重要的网络资源,其中隐含着大量的模式与知识亟待发现与利用。虽然在广泛的数据资源中充斥着大量非结构化或者半结构化的数据资源,但是通过信息标注技术处理后,大部分数据均可结构化,形成文本资源。文本挖掘作为数据挖掘的分支,就是指从文本数据中抽取有价值的,事先未知的、可理解、最终可用的信息和知识的过程,即数据挖掘的对象全部由文本信息组成。
今天小职带你了解什么是文本挖掘!
首先,我们要弄清楚三个问题:
· 什么是文本挖掘?
· 文本挖掘有什么用?
· 文本挖掘技术有哪些实际应用?
什么是文本挖掘
1 文本挖掘,就是从文本数据中挖掘信息,是一种从大量文本数据中把“有意义的信息”提取出来的处理技术。
通过使用自然语言处理技术和统计学工具,从大量的文本数据中提取出压缩后有意义的信息。在这里,我们分别使用“文本数据”和“信息”这两个词。先说文本数据,比如各种各样的文件、在社交平台上发布的信息、关于产品或服务的问卷调查结果,这些数据的产生都有原本的目的。也就是说,我们是为了写文件、为了在社交平台上发布信息、为了评价产品或服务等目的,才去写作各种文本,而这些文本就是我们输入的“数据”。文本挖掘,就是从这些数据入手,比如从社交平台中提取出最近的流行趋势,从问卷调查中提取出对某种商品或服务的整体评价和出现的问题(图1-1)。而上面说的从社交平台上提取的流行趋势、通过问卷得到的评价和问题,和原来的文本数据相比,被大幅度地压缩了。我们把压缩后得到的东西称为“信息”。
简而言之,文本挖掘可以说是一种从大量文本数据中获得压缩信息的过程。
文本挖掘有什么用?
文本
分类
文本分类是一种典型的机器学习方法,一般分为训练和分类两个阶段。文本分类一般采用统计方法或机器学习来实现。
文本
聚类
文本聚类是一种典型的无监督式机器学习方法,聚类方法的选择取决于数据类型。文本挖掘中的聚类可用于:提供大规模文档内容总括;识别隐藏的文档间的相似度。
信息
检索
主要是利用计算机系统的快速计算能力,从海量文档中寻找用户需要的相关文档。
信息
抽取
信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息。
自动
文摘
利用计算机自动的从原始文档中提取出文档的主要内容。互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。
语音
识别
自动语音识别就是将输入计算机的自然语言转换成文本表示的书面语。
信息
过滤
指计算机系统可以自动的进行过滤操作,将满足条件的信息保留,将不满足条件的文档过滤掉。信息过滤技术主要用于信息安全领域。
文本挖掘技术有哪些实际应用?
文本挖掘技术有多种多样的实际应用,下面通过举例来大致了解都有哪些应用,并希望能以此来了解文本挖掘功能的整体面貌。
01
关于调查问卷的开放性问题或客服中心收到的提问和意见的分析
通过纸质媒体或互联网做问卷调查来探究大众对产品或服务的印象、评价的方法被大家广泛使用。调查问卷的项目中不是只有选择题,还有需要答卷人自己写答案的开放性问题。通过分析其中的文本内容,我们可以获知顾客对作为调查对象的产品或服务的反响。
对调查问卷的开放性问题这一栏目的分析,与其他文本分析相比,有一个不同之处,那就是其文本内容可以结合别的选择题一起分析。多个项目对比讨论的分析方法叫做交叉列联表,这和统计分析里的“多变量分析”是相对应的,但交叉列联表能够包含作为项目之一的开放性问题栏目的特征量。因此,一方面,我们可以做出有深度的分析,另一方面,我们可以得到问卷制作人没有预想到的内容,而这是选择题无法涵盖的。即使只是注意开放性问题栏目中出现的单词,也有机会抓住答卷人的动向。
02
社交平台上对特定商品和服务的评价分析
在互联网上发表的个人想法和心情,也可以通过文本挖掘进行分析。推特、脸书、博客等SNS(网络社交平台),用户只要登陆就可以在上面发表自己的想法和心情,由于发表门槛低,因此可以在这些平台上收集到很多人的意见。利用这个特点,我们可以提取出大众对于某个特定服务或商品的意见倾向,或者不针对特定对象,而是提取出社会整体的氛围和感情。
当把推特和脸书作为分析对象时,在上面收集对某种特定商品或服务的评价,统计其中出现的单词,我们就能知道大众对这种商品或服务的看法,认为哪些方面比较好,对哪些方面不满意。而且,我们还可以判断大众对这种商品或服务的整体接受状况,即从整体上看,大众的态度是肯定的还是否定的。
在对网络社交平台的分析中,用户层的倾向是一个问题。首先年龄层偏向于年轻人,而且其数据更能体现出喜欢在社交平台上发表意见的人的倾向,所以必须要注意的是,我们的调查对象并不能代表所有的人。再者,当分析对象是在推特平台上向public timeline发布的消息时,由于其受众不是特定的群体,所以无论是赞赏还是不满都是对大众说的。与之相对,在分析脸书等平台上对提供的商品或服务的企业账号的留言时,分析文本就变成了对企业提的意见,所以两者的措词会很不一样。
推特的特征包括能广泛收集涵盖了青年层的大众意见,有文本量足够多的统计分析对象,有很多以心情、感觉、情绪为背景的信息,可以及时发表对社会现象和变化的反应等。有很多关于心情的信息这一特征,使其可以作为情感分析的对象,具有即时性这一特征使其可以作为当前趋势的分析对象。因为有这些特征,所以我们可以有效地利用推特来判断大众对商品和服务宣传的反响。
由于推特的用户范围很广,发表的内容里很多措词并不完整,而且还有很多独特的东西,因此,分析文本时,就会产生无法应对字典中没有的用语等问题。颜文字一时间被广泛使用,这也会对语言处造成影响,所以必须去除。但是另一方面,利用颜文字可以进行情感分析,考虑到这一点,现在有相关研究正在进行。
03
趋势调查分析
在上述的例子中,我们是抱着对特定的商品或服务进行市场调查这个具体目的而进行的文本分析。另一方面,我们还可以做趋势调查分析,也就是选取一般性的社会话题,而不是特定的商品,从时间顺序上测定话题的起伏度。比如,在推特上提取当今话题这个方法被广泛使用,此外,我们还可以根据对微博的分析、对新闻的分析来提取话题,捕捉动向。而且,不仅只是提取出作为话题的关键词,还可以筛选出和关键词一起出现的词语,帮助我们进一步分析出大众如何对待“关键词”、怎样议论“关键词”。
04
话题关联性分析
我们可以把新闻报导、评论性的微博网页作为对象,提取社会话题、分析关联性。以段落、小节中出现的关键词为基础,通过找出这些段落关键词的重复性以及它们同时出现的次数,就可以找出话题间的关联性。所以,我们可以提取出政府、政党、媒体、知识分子对某个社会话题的意见倾向,然后分析它们之间的关联性,还可以将时间顺序上的变化用数字表示出来。
05
文书的检索和分类
通过对大量文献和文书进行关于关键词的分析,可以使文献检索变得简单起来。过去的文献检索是指找出含有指定关键词的文献,但如果我们可以提取出话题,并测量出话题之间的远近关系,那么不只是能搜索到含有某个特定关键词的文献,还可以找到和话题关系相近的文献。再进一步,如果我们可以把关系相近的话题总结到一起形成一个集合,就可以轻易地看到话题的整体面貌。
06
深层语言分析
通过使用深层语言分析技术,而不只局限于对出现频率和词语的关联度的分析,我们将渐渐能提取出文本的主张和意见。比如,能够对应识别出经常和名词性关键词搭配使用的动词、形容词,再通过使用近义词、同义词词典来概括文本的主旨大意,像这样的尝试现在正在进行中。虽然都是处于研究阶段的未成熟技术,但是掌握更加深入的文本挖掘技术是指日可待的。
除此之外,我们还可以利用Python来理解文本挖掘中会用到的自然语言处理技术和数学、统计学工具。
在《Python文本数据分析与挖掘》中,只是将自然语言处理技术和统计处理技术视为工具,不会涉及到其繁琐的原理、数学定理等。利用操作简便的Python程序包来处理文本数据,探索文本挖掘可以帮我们做到的事情,而非用尖端的技术进行程序设计。
《Python文本数据分析与挖掘》
【日】山内长承 著
张倩南,刘博 译
索书号:TP311/2453
馆藏地点:深图中文图书借阅区3楼
一个以大数据与人工智能技术为核心的新的工业革命时代已经来临,大数据在企业决策中扮演着越来越重要的角色,数据经过高效的智能数据分析与挖掘等人工智能技术处理后,可以产生巨大价值,创造智能,方便生活。现在“统计分析和数据挖掘”已跻身最受欢迎的求职技能行列,数据分析师的薪酬待遇也远远超过平均薪资水平。这本书是写给此方向的初学者,书中用简单明快的例子演示应用效果,并配有视频展示,下载资料包即可获取视频和二维码,不会让你感觉枯燥摸不到头脑。
●●●
|
|
|
➥ 或许你还对这些活动感兴趣...