vlambda博客
学习文章列表

大数据分析技术——大数据的来龙去脉(下)

深度学习 From AI雄霸天下 04:45

1

前言

上一节中我们简单了解有关大数据的一点点前世今生。那么从这一节开始,我们就围绕着如何开展大数据技术工作、大数据技术的一些基本应用领域以及未来大数据技术的一些发展趋势做一点粗浅的讨论,权当是抛砖引玉。各位看官们如有更好的一些看法,不妨留言于我或私信我均可。在此,先行谢过各位!

2

大数据分析技术如何开展

想要弄懂大数据分析这门技术究竟该如何发挥作用,我个人感觉首先要明白的是大数据技术的一般套路以及常见的大数据分析技术都包含哪些方面的分析手段。

通常,我们拿到一批数据,首先第一个印象是:卧槽!丈二和尚摸不着头脑啊。的确如此,因为大多数时候我们得到的数据往往不知道能用来干啥。如同我们在机器学习中讲述非监督型机器学习算法知识一样,没有任何标签,也不知道能学到些啥。而更重要的是什么呢?这样的数据往往是不完整的,比如某些数据就会“缺胳膊少腿”,不是这个特征值没有,就是那个特征值缺失。

因此,当我们面对这样的海量数据时,我们能采取的分析手段有时是捉襟见肘的。但任务当前,不分析则不可能。所以通常我们都会采取如下的套路来对数据进行深层次的加工提炼:

第一步:数据抽取与集成

大数据的来源非常多样化,其数据类型也极为繁杂,因此我们首先要做的就是如何对这些数据进行一个统一的结构化表示。为后续采取什么样的分析技术打下基础。

在数据集成和提取时,需要对数据进行清洗,保证数据质量及可信性。同时还要特别注意大数据时代数据模式和数据的关系,大数据时代的数据往往是先有数据再有模式,并且模式是在不断的动态演化之中的。

从数据集成模型来看,现有的数据抽取与集成方式可以大致分为4种类型:基于物化或 ETL 方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎,以及基于搜索引擎的方法。

具体来说,在这一个环节,我们通常需要做的就是:数据清洗、数据集成、数据转换、数据的消减等操作。而有关每种操作的具体内涵以及常见的分析手段,我们将在具体的大数据技术分析手段等知识分享的章节进行详细介绍。这里只是大致提一下:

数据清洗:是指对数据中的遗漏数据处理,噪声数据处理,以及不一致数据处理。

数据集成:将来自多个数据源的数据,如数据库、数据立方、普通文件等,结合在一起并形成一个统一数据集合,以便为数据处理工作的顺利完成提供完整的数据基础。

数据转换:是将数据进行转换或归并,从而构成一个适合数据处理的描述形式。

数据消减:是从原有巨大数据集中获得一个精简的数据集,并使这一精简数据集保持原有数据集的完整性。

第二步:数据分析

经过第一步的初步处理处理(也称之为数据预处理阶段),此时的数据就不像最开始那样显得杂乱无章,而是结构统一,且消除了其中诸多的不足之处,比如缺失值不再有、有冲突的数据也被很好地处理掉等。此时我们要开始选择一些合适的方法来对它们展开分析。

常见的一些数据分析手段包括:

基本统计分析:依据统计学的理论,对数据的一些基本统计量展开统计分析,比如数据的平均值、最大最小值、四分位距等。通常我们可以从这些基本的统计值的分析结果可以大致看出数据的一个平均情况,这对新数据的预测是非常有帮助的。比如我们统计出数据的最大最小值后,对于新数据的预测就会心里有个限定范围,如果新数据的值超出这个限定范围,那么很显然就一定是一个异常值(注意:尽管是个异常值,但我们并不能在此时就把它做丢弃处理,而是应该进一步去分析产生这个异常值的原因,以便做出更加科学的决策。)

分组分析:分组分析是指根据分组字段将分析对象分成不同的部分,组之间差异性的一种分析方法。常用的统计指标有 计数、求和、平均值。这在现实中也是很常见的一种方法。比如我们分析公司一段时间内的产品销售数据。由于公司拥有不止一个产品,此时我们自然就会想到对总的销售数据进行分门别类去展开分析,这样做出来的分析结果才更具有说服力,毕竟每个产品的卖点不一样、客户群不一样,所产生的销售数据也就不一样,不可混为一谈。

分布分析:分布分析是指根据分析的目的将数据(定量数据)进行等距或不等距的分组,研究各组分规律一种分析方法。通常最常见的是就是利用现有数据计算出其平均值、方差,看看这批数据是否满足或近似某个概率分布,如此便可直接画出一个概率分布示意图来表示当前数据的实际分布情况,为后面的数据预测也提供了一个友好的可视化解释。

交叉分析:交叉分析通常用于分析两个或两个以上分组变量之间的关系,以交叉表形式进行变量间关系的对比分析 。一般分为定量、定量分组交叉;定量、定性分组交叉定性、定型分组交叉。这种分析技术也比较普遍。比如我们可以分析一份报纸的阅读量与阅读者的年龄、性别、受教育程度、职业的各种关系。可能在不同的年龄段,阅读报纸的时间占比是不一样的。比如我吧,大学那会,几乎天天都会在我们学校的五教门前花上6毛钱买上一份《参考消息》,装装门面,但到了工作之后,渐渐地就把这个爱好给丢了。

结构分析:结构分析是在分组分析以及交叉分析的基础之上,计算各组成部分所占的比重,进而分析总体的内部特征的一种分析方法。这个分析手段就比较好理解了。就好比是我们需要知道在男女恋爱中,男女双方对爱情的付出所占比比重,哪个才是真正起到维系这段感情的核心因素。

相关性分析:相关性分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的种统计方法。相关性分析在电商等领域应用得特别多,比如一个客户买了电脑、鼠标、键盘等电子器件。那么我们凭借着直观感受,也能基本做个判断:通常买了电脑的人,大概率是会再买点鼠标和键盘的。有了这样一个大概率下的论断,我们的老板们就会情不自禁地把鼠标、键盘等电脑附件都搬上台面,供客户选择。再来说我们的推荐系统,其实内部的分析技术中,相关性分析也是必不可少的。这一点我们在后面的实践示例中还会陆续提及,敬请期待。

聚类分析:聚类分析,想必大家都很清楚了。这是我们在大数据分析技术中最为重要的一种分析手段之一。事实也是如此,我们得到的数据让我们毫无头绪,除了能够做一些必要的数据清洗等工作外,似乎要想立即指定出一种高效的分析算法来对它展开分析,就好比是拿刀架在脖子上说:你死不死!

除了以上这些分析手段之外,我们可能还会用到一些别的手段,只要是这些分析技术最终是可以从数据中分析到有价值的内容,我们都可以拿来用。因此,在机器学习阶段所学习到的各种分类算法、回归算法、数据缩放技术、特征工程技术等方法都可以用于开展大数据分析。只不过需要注意的一个原则就是:具体问题具体分析!切不可眉毛胡子一把抓,乱了方寸。

数据分析是大数据分析阶段中的重中之重,因此所占比重也是最高的。

第三步:数据结果解释

有了数据分析技术,得出分析结论那是指日可待。可如果直接将分析结果呈现给用户,恐怕用户会给你翻好几车的白眼,甚至从此不再照顾你家的生意。因为他们看不懂,感觉你是在“侮辱”他们的“IQ”。所以合理高效的数据解释就成为大数据分析阶段的收尾工作。

通常来说,我们目前习惯于看那种可视化的数据分析结果。比如从事网络安全工作的朋友们都知道,态势感知是最惹人注目的,因为它总能以一张3D地图来动态展示当前网络中所正在发生的网络行为,并动态直观地复现网络中的威胁。

此外,我们炒股票的时候,也很希望能有一张清晰简单的股票涨跌曲线来供我们做出明天股票是涨是跌的判断,当然这种判断也是有一定风险的,搞不好也会请假当场,因此:炒股需谨慎,切不可过贪哦。

再有,我们在电视上也经常会看到一张张巨大的电力消耗3D画面,这其实就是利用可视化等技术来动态地展示通过大数据分析技术分析过后的电力消耗分布结果。

而如果我们把以上这些手段统统换成文字描述方式,动不动来一大堆的A4纸给人去看,估计没几个人愿意去看,至少我是懒得看,有那功夫,还不如多花点钱找更加靠谱的数据分析师来帮我做出直观可见的结论。

此外,除了可视化技术外,我们其实还可以邀请客户来实际体验和一定程度上参与大数据分析的具体过程,以加深客户对我们技术的可信度等。比如我们不妨利用图形编程可以做出一些小APP,由客户输入一些简单的指令,然后由我们内部开展数据分析,最终结果呈现给客户。这种交互式的分析体验,往往也是一种很好的解释手段。

3

大数据技术的典型应用

目前,我们已知的一些大数据技术的典型应用包括:

1.理解客户、满足客户服务需求

大数据的应用目前在这领域的重点是如何应用大数据更好地了解客户以及他们的爱好和行为。

2.业务流程优化

大数据可以通过利用社交媒体数据、网络搜索以及天气预报挖掘出有价值的数据,比如供应链以及配送路线的优化。

3.大数据正在改善我们的生活

通过大数据分析,我们可以利用穿戴的装备(如智能手表或者智能手环)生成最新的数据,这让我们可以根据我们热量的消耗以及睡眠模式来进行健康追踪。而且还利用利用大数据分析来寻找属于我们的爱情,这是诸如珍爱网、百合网等婚恋网站最拿手的看家本领。

4.提高医疗和研发

大数据分析应用的计算能力可以让我们能够在几分钟内就可以解码整个DNA。并且让我们可以制定出最新的治疗方案。同时可以更好的去理解和预测疾病。

5.提高体育成绩

现在很多运动员在训练的时候应用大数据分析技术了。比如现在我们的国羽、国乒就已经在大量使用这种大数据分析技术,既分析自身平时训练比赛中的不足,也能够窥探出对手的弱点,为下一场比赛做准备。

6.优化机器和设备性能

大数据分析通过分析设备产生的大量日志,可以让我们更好地掌控当前设备运行的一个大致情况,有效安排设备生产任务,提高生产效率。

7.改善安全和执法

大数据现在已经广泛应用到安全执法的过程当中。想必大家都知道美国安全局利用大数据进行恐怖主义打击,甚至监控人们的日常生活。而企业则应用大数据技术进行防御网络攻击。警察应用大数据工具进行捕捉罪犯,信用卡公司应用大数据工具来预警欺诈性交易。

8.改善我们的城市

大数据还被应用改善我们日常生活的城市。例如基于城市实时交通信息、利用社交网络和天气数据来优化最新的交通情况。目前很多城市都在进行大数据的分析和试点。

9.金融交易

大数据在金融行业主要是应用金融交易。高频交易(HFT)是大数据应用比较多的领域。其中大数据算法应用于交易决定。现在很多股权的交易都是利用大数据算法进行,这些算法现在越来越多的考虑了社交媒体和网站新闻来决定在未来几秒内是买出还是卖出。

以上九个是大数据应用最多的九个领域,当然随着大数据的应用越来越普及,还有很多新的大数据的应用领域,以及新的大数据应用。

我们学好大数据分析技术之后,大概率也会在这些领域中大显身手。因此,学好大数据分析完全不愁找不到理想的工作,这么多应用领域等着我们去征服呢,哈哈哈。

4

大数据技术的发展趋势

至于说到大数据技术的未来发展趋势,我觉得百度百科上的说的这一段总觉得相当到位,这里我就暂时借用一下下:

趋势一:数据的资源化

何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。

趋势二:与云计算的深度结合

大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。

趋势三:科学理论的突破

随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。

趋势四:数据科学和数据联盟的成立

未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。

趋势五:数据泄露泛滥

未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。

趋势六:数据管理成为核心竞争力

数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。

趋势七:数据质量是BI(商业智能)成功的关键

采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。

趋势八:数据生态系统复合化程度加强

大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。

从这些趋势来看,未来的大数据分析技术的江湖地位只会增强不会被削弱。或者干脆这么说吧:只要仍然是数据为王的时代,就一定离不开大数据分析技术的陪伴。从这一点来看,我个人感觉,与其说这是大数据分析技术的未来趋势,倒不如说是我们学好数据分析技术之后的一个个完美的就业领域,而且是不论从重要程度还是领域的参与范围等方面,我们都有充足的理由相信,未来的大数据分析技术完全有可能成为一只铁饭碗。

5

如何成为一个优秀的大数据分析师

大数据分析既然这么吃香,搞得好像不懂点数据分析技术,就有些不好意思自称程序员的感觉。那么如何才能成为一个优秀的大数据分析师呢?

成为一名优秀的数据分析师,要具备的品质有很多。这里边有客观的,也有主观的。但我个人认为,其重要的一条因素就是:

首先,你必须拥有一颗强烈的想改变自身命运或因强烈的兴趣爱好而去从事数据分析的心,非如此,你无法拥有源源不断从事数据分析的动力。一旦动力丧失,各位都知道,就如同一只泄了气的气球,早晚会跌落尘埃,被世人所遗弃。

其次,过硬的分析技术是必不可少的,比如我们本节中提到的那些基本的分析技术是必须要具备的。

第三,拥有一些综合性的技术,有时也是一个很有价值的加分项。比如你会爬虫技术,那么不论是让你从事数据爬取工作还是让你从事数据分析工作,你都不会对工作过程中需要一些爬虫技巧而感到畏难。再比如,你懂得深度学习技术、算法分析技术等,那么你同样会令自己加分不少。而我们这里所要给大家介绍的大数据分析技术其实也是基于Python的一种分析技术。故而,以往学过的那些知识,诸如Python爬虫、科学计算库、Scikit-learn、TensorFlow、机器学习以及后面要学习到的深度学习等技术,其实都可以拿来开展数据分析。

第四,对其他的一些技术、方式也必须有一个基本的了解。比如现在我们一提起大数据分析技术,就会说到的诸如Hadoop、Spark、NoSQL等也最好有一些涉猎,要不你面试时要是被问到了,答不上来可就错失良机了。

最后,也是极为重要的一个因素:你必须持续深耕一两个业务领域,切忌贪多,而要求精。并且保持着对数据分析前沿技术的一个敏感度。确保自己所学习到的分析技术不过时。

6

总结

洋洋洒洒讲了这么一大堆,看到这里估计很多看官们指定在背后要“骂娘”了,哈哈哈。没关系,我们马上就结束这一节的分享。

最后再啰嗦一句的是:大数据分析技术十分重要,我们真的应该对此充分重视,尤其是未来十年间,我们必将亲身经历一个数据为王的时代。但是,数据分析技术只是一个务虚的概念,具体到实现阶段,你采用什么语言、利用哪些库来开展数据分析,并没有做出严格限定。所以我们也不需要每一种数据分析途径都要掌握,只需要把有限的精力投入到我们认为最值得投资的一两个途径上即可。

OK,本节知识就到此为止,谢谢大家,我们下一节的分享中,不见不散!