搜文章
推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 中兴大数据 > 中兴大数据首席架构师作客CSDN专家问答实录

中兴大数据首席架构师作客CSDN专家问答实录

中兴大数据 2017-10-30

文 | 王德政@中兴大数据

近日,中兴通讯中心研究院大数据首席架构师王德政应邀作客CSDN学院“专家问答”栏目,与广大网友就大数据技术、大数据行业等话题进行了互动,从实战角度解答了网友提出的大数据相关问题。以下摘取了部分问答实录。



您好,请问现在主流处理大数据的技术架构有哪些?能简略说些这些架构的优缺点是什么。如果学习的话应该从哪个层面进行入门?——拉着猪逛街


中兴大数据首席架构师作客CSDN专家问答实录



这个问题的确太大了,毕竟大数据从存储计算到上层应用,现在已经是一个庞大的家族了。所以,我个人觉得每个组件的诞生,都是为了解决某个场景下的问题。例如,如果你的系统只是一个批处理系统,用MR就可以了;如果你需要进行多种业务的运算,并且每种场景下的指标又不严苛,用Spark就是一个好的选择与折衷。

学习的话,我建议还是先建立基础的知识框架,这样学习起来就能有的放矢,不会迷失在细节的海洋中。


您好,请问大数据架构跟传统的架构有哪些本质的区别,优势在哪?大数据的哪些框架是主流的,效率方面怎么样?如何定位公司业务场景所对应的大数据平台选择合适的解决方案的模式?大数据的业务分层和价值评估如何做到?——风之殇love


中兴大数据首席架构师作客CSDN专家问答实录



1)大数据架构与传统架构的设计哲学有本质的不同。大数据是“将计算移动到数据”的设计哲学,而传统架构还是“将数据移动到计算”。正因为现在数据量已经大到“移动数据成为不可能”,那自然“移动计算到数据”才能解决问题

2)当前Spark是一个较为通用折中的计算框架,但特定领域内还是需要使用特定的计算框架,以满足特定领域的需求

3)价值评估是业界的难题,尚无一劳永逸的通用方法。但可以参考《大数据架构师指南》(注:本书为王德政新作)3.4节


不太理解大数据架构到底是什么?所谓的大数据架构,除了折分业务为微服务dubbo,数据库使用分布式数据库之后,其他的就是使用分布式的框架了,比如分布式缓存等等,不知道还有其他什么?——richgood


中兴大数据首席架构师作客CSDN专家问答实录



这个问题就是仁者见仁,智者见智了,毕竟现在持有“架构已死”观念的人很多。在这里,就简单地说说自己的理解吧。

打个比喻,以前建房子主要使用水泥、沙子、钢筋,建筑师需要画图纸详细说明每一处的细节。但后来工艺改进了,出现了很多的预制件,对于小型的建筑,有经验的工人或许真的不需要图纸就能使用这些预制件搭建一个简单的房子。但是,对于大型的建筑,即使使用预制件,如果没有图纸的设计指导,也是很难搭建一个受力平衡功能合理的建筑。使用预制件与以前直接使用水泥沙子相比,无非是这两个差别:1)部分细节直接由预制件决定了,所以不需要在设计期间考虑这些细节;2)由于预制件的部分特性已经确定,在架构时必须考虑预制件的特性。

如上的比喻,对于当前已经存在大量开源组件的大数据生态来说,道理是一样的。你的系统规模、业务特性、你的数据特性等等,都决定了你应该做何种选择。


您好,我想请问下,如果要了解大数据,要从哪里入手,有哪些注意点,在了解一部分知识之后,如何进行实践呢?谢谢。—— dcxy0


中兴大数据首席架构师作客CSDN专家问答实录



1)我们编写《大数据架构师指南》的目的,就是解决入手问题的。

2)由于本书并不是面面俱到,在建立知识框架后,可以多关注Apache开源社区的动态,了解特定的知识。

3)找到一个你需要解决的问题,从问题开始入手进行实践。


大数据架构究竟用哪种框架更为合适?以现在的趋势,hadoop,spark,storm,哪个更适合未来的大数据架构,尽量详细,再次感谢!从网上还有的是学习hadoop+spark,不知道这三个究竟怎么学?我的方向是大数据架构,就单论大数据架构怎么学习最好呢?—— louise_1


中兴大数据首席架构师作客CSDN专家问答实录



当前大数据已经是一个庞大的生态系统,很难用一种技术(或组件)将所有的场景通吃。作为计算框架,Spark是一种较为通用且高效的计算框架,是大多数场景下的较好折中。例如,如果要实现秒级的实时流处理,则Spark Streaming可以胜任,但如果需要实现亚秒级的实时流处理,则需要使用Storm。就如同瑞士军刀,可以做很多事情,但是在特定严苛的场景下,还是需要使用更为专业的工具才能胜任。


从目录结构及书的篇幅(页码数)来看,这是一本大数据架构入门的书籍。另外,从大数据架构来说,本书不全面,个人认为少了如下几个方面:

1)数据生成(收集)及清洗,也就是说从大数据开源组件来说,少了Flume/Kafka相关内容

2)数据检索或搜索,对应的大数据组件如solr,ElasticSearch等

3)大数据中间件这块不知道是什么内容,我估计是zookeeper

4)OLAP方面的介绍,如apache Kylin之类的系统

5)整个数据流怎么串起来以及大数据常用的架构,如lambda架构没太多介绍

6)架构实践方面篇幅过少,这个才是干货

总的说来,对初学者而言还是一本可以翻一下的,已经从业的架构师估计能吸收的营养不多了

—— heguangwu


中兴大数据首席架构师作客CSDN专家问答实录



你说的对,这的确不是一本面面俱到的书,而是让具备一定IT知识但又不了解大数据的人员,以最快速度建立大数据知识框架的书。如果面面俱到,估计没有两千页很难阐述清楚。


Java web开发转型数据架构师,要准备什么,前期要了解哪些技术?—— heguangwu


中兴大数据首席架构师作客CSDN专家问答实录



你已经具备很好的技术基础,需要了解的是大数据相关组件的知识。当然,还需要学习你所服务领域的专业知识。


房地产行业未来会需要大数据架构师这种职业吗,因为目前房地产是最火的行业,所以想从事,因此想请问一下—— baidu_35585468


中兴大数据首席架构师作客CSDN专家问答实录



大数据技术本身终将成为一个基础性的技术,并进而消失在人们的事业中,而未来人们关注的只是各个细分领域内的应用。就好比文字是一个基础性的发明,你在任何一个领域都需要用到文字,但从来就没有人意识到文字是一个多么伟大的发明。

回到房地产行业,我理解将来一定会用到大数据相关的技术,只是或多或少,或早或晚。


想要成为大数据架构师需要具备哪些技能?需要学习哪些东西?主要讲述Hadoop的一些知识么?—— jinyp


中兴大数据首席架构师作客CSDN专家问答实录



我觉得至少需要了解如下方面的知识:

1)大数据组件相关的知识,当前Hadoop生态系统中的主要组件,都需要有所了解

2)所从事领域的业务知识,大数据终究只是一个工具,只有解决了相应领域的具体问题,才能产生价值

3)数据分析、建模方面的知识。如果有条件的话,可以将统计学领域的知识做一定的了解


一个客户的几个项目,每天产生大量日志,且都是零零碎碎的文件,文件内容为特定的json格式。现在要做的是,把这些零碎文件里面的某部分json解析并提取出来,将其中符合规范的数据入库。现在是实现了,步骤就是定时将产生的日志文件下载到本地,然后进行解析,使用gp。外部表将文件的数据copy到表中。但感觉还不是很好,有什么更优的方法吗?—— 我说假如


中兴大数据首席架构师作客CSDN专家问答实录



是否可以考虑使用Kafka来进行日志采集呢?

这个问题已经与具体的应用场景相关了,具体的最优方案需要根据具体场景进行研讨。


大数据架构师的核心技能是什么?未来大数据架构技术的发展趋势是什么?大数据架构师的未来职业发展路径是什么?——  jasperbanff


中兴大数据首席架构师作客CSDN专家问答实录



在大数据平台层面,当前以Hadoop/Spark为核心的生态系统,已经成为大数据的事实标准。大数据的发展趋势,可以总结成一句话:“平台同质化,应用异质化”。

在当前开源的大背景下,大数据架构师的核心技能我理解是“透过技术看到问题本质”的能力。很多人了解组件的技术细节,但却很少思考为何会有这些组件,这些组件适用哪些场景,最适合解决哪类问题,不适合解决哪类问题?等等

我认为,只有具备这种透过技术迅速理解问题本质的能力,才能超越技术细节,成为一个合格的大数据架构师。

至于大数据架构师的未来职业规划,我个人强烈地建议要深入了解所从事细分领域的专业知识,成为行业专家。


您好,请问之前从未学习过相关知识,想要学习大数据架构,应该先从哪方面着手,有什么需要注意的地方吗?—— lhklinger


中兴大数据首席架构师作客CSDN专家问答实录



当前市面上不缺大数据的学习资料,但缺乏的是对资料有逻辑的整理。所以,找到一本合适的导读书籍是很重要的。而我们的《大数据架构师指南》,其本意也就是帮助业界人士对大数据领域的知识建立系统性的知识框架。我建议你可以先阅读完本书,这样你就知道自己应该进一步去阅读哪些方面的材料,去学习哪些方面的细化知识,这样可以缩短学习路径。


我是做了开发2年的java程序猿。最近经常听到同事们说大数据时代要来了。请问学习大数据需要掌握哪些基本东西?—— qq_16142319


中兴大数据首席架构师作客CSDN专家问答实录



一个大数据系统,首先可以将其分为平台层与应用层两个层次。对于你来说,我觉得首先需要分析自己所工作的层面是在平台层面还是应用层面。如果是平台层面,则对相关的组件如HDFS、YARN、SPARK等平台性质的组件要掌握了解,并理解系统的自动扩展自动容错等机制;如果你是工作在应用层面,则需要成为这个领域的行业专家,才有可能能针对这个行业的数据进行建模。

回过头来说大数据的架构发展趋势,可以总结成一句话:“平台同质化,应用异质化”。


大師:對於不同產業,大數據都會有不同的需求的,那有沒有那一些是比較共同的呢?—— qq_35591403


中兴大数据首席架构师作客CSDN专家问答实录



1)底层大数据平台所用的技术大致是相同的,即平台同质化

2)分析、解决问题的框架可以是相似的

3)具体行业的数据建模、行业分析等,是不同的,隔行如隔山


数据挖掘只是大数据平台的一个分支,可以这么理解吗?数据挖掘技术和大数据平台的关系是什么?它俩的衔接点在哪里?—— 爆豆


中兴大数据首席架构师作客CSDN专家问答实录



可以说数据挖掘是大数据平台的一个应用方向之一。一般来说,说起数据挖掘,其底层的算法库、数据探索工具等,可平台化;但其数据建模、可视化展现等,是属于应用层面的范畴。


《大数据架构师指南》适合哪些人学习?怎样更好的阅读这本书?—— 微wx笑


中兴大数据首席架构师作客CSDN专家问答实录



读者对象

a) IT技术人员:该人群具备IT知识,但大数据知识不完整,或不成体系。希望此人群阅读完本书后,不仅具备大数据的基本知识,而且还可以针对个别问题发表较为有深度的见解。

b) 市场营销人员:该人群只具备非常基础的IT知识,但希望了解大数据技术以作为与客户的谈资。希望此人群阅读完本书后,可以了解基本的大数据概念与框架。

c) 大数据从业人员:对于希望超越自己所从事的模块,将自己大数据知识系统化的大数据从业人员,这是一本较为系统的泛读书籍。

d) 企业的CTO、CIO:阅读完本书后,可建立较为系统的大数据技术概念。

e) “朝闻道,夕死可也”的技术思考者:阅读完本书后,可帮助读者跟上时代。


对大数据常用的分类方法有哪些?大量的数据是如何分类存储的,对于有可能重复和重叠的数据是怎样处理的?—— qq_22518737


中兴大数据首席架构师作客CSDN专家问答实录



分类的种类较多,即可以根据业务类型分,也可以根据数据类型分,还可以根据应用领域分等等。

对于重复与重叠的数据的处理,与数据治理领域相关,需要根据相应的业务逻辑进行处理。


无线大数据跟我们平常说的大数据有什么关联和区别啊?刚开始接触大数据,因为感觉前者更多侧重通信系统啊矩阵运算复杂度这些,后者听起来很实用啊数据挖掘数据分析,所以想了解一下—— qq_22518737


中兴大数据首席架构师作客CSDN专家问答实录



无线大数据是大数据的一个应用领域,例如,通过收集无线网络在运行中产生的数据,经过分析,生成对网络进行优化的建议。这样的挖掘分析可以帮助电信运行商节约大量的网规网优的人力与勘测费用。


大数据架构师跟普通架构师有什么区别?—— zfjclark


中兴大数据首席架构师作客CSDN专家问答实录



大数据架构师还需要有如下的积累:

1)大数据相关的技术知识

2)以数据为核心的思维模式


王工,您好!我是一名普通的Android开发者,平时的开发工作中貌似也没有涉及到大数据相关的东东,所以想请问下学习大数据对像我这样的普通开发者意义何在,有什么实际的帮助吗?—— warmor


中兴大数据首席架构师作客CSDN专家问答实录



举一个我自己的例子吧。在2000年左右时,我处于两个项目中间的过渡期,于是我用了两个月系统地将TCP/IP等相关的知识系统地学习了一遍。后来在做WCDMA核心网、3G平台、IMS等系统设计时,这些知识起到很大的作用,如果没有当时的提前学习,很难想象能胜任这些工作。

未来大数据会成为一个基础性的技术,渗透到各行各业中去。就如同文字一样,各行各业都需要使用文字,却不会意识到它的存在。所以,如果你现在有精力的话,我认为是可以提前学习一些这方面的知识的。我相信你迟早会用到它,只不过或早或晚而已。即使暂时用不到,也能起到开拓视野的作用。


您好,我大学主要学的java,对数学建模也有些了解。最近想学大数据,有位前辈知道我的情况后,建议我可以对数学建模加深些了解。我想问问,主要学习建模里的那些模型或算法?——zd_aqa


中兴大数据首席架构师作客CSDN专家问答实录



当前已经有很多较为成熟的算法,并且有相应的开源实现。客观地说,大数据技术的出现,并没有对以往统计学相关的理论进行大的突破。但在大数据技术出现之前,传统的IT架构无法在如此庞大的数据量上有效地运行这些算法。而大数据利用强大的架构与计算能力,使这些算法能够处理以前难以想象的数据量。例如线性回归、聚类、分类、贝叶斯网络等等。

而数据建模可以理解为是结合具体领域的专业知识的基础上,对算法的应用。只有在明确所需要解决的问题,深入了解领域专业知识的基础上,才能决定使用什么样的算法去处理数据,获取相应的分析成果。


Csdn怎么当框架用?Csdn怎么当框架用?Csdn怎么当框架用?Csdn怎么当框架用?——qq_35611425


中兴大数据首席架构师作客CSDN专家问答实录



不太理解你的问题。。。


一般的企业又不是淘宝、京东、腾讯这样的大公司,怎么才能获取足够多的能称为大数据的数据量?——sxsuntao


中兴大数据首席架构师作客CSDN专家问答实录



取得数据 无非就是两条路径:其一是立足于生产过程,获得数据。你所提到的淘宝京东腾讯等都是这种类型;其二是交换、购买、合作、或者是采集公开的数据等渠道获得数据。


大数据的疑问,如何学习大数据下的开发:1、多大的数据才能称为大数据?2、大数据下的开发、查询是怎么设计的呢,以Java为例?3、如何快速、简单的掌握大数据的开发呢?谢谢。——Java_er


中兴大数据首席架构师作客CSDN专家问答实录



一般来说,数据量的大小,是随着时代的发展而变迁的,其实并没有一个清晰的一刀切的界限。不过,可以简单地认为,传统DB难以处理的数据量,即可为大数据。一般来说,传统的关系库在30T~100T左右时,就会出现性能下降或成本上升,所以,大体上可以认为,几十T级别以上的数据,就可以成为大数据。

至于大数据下的开发,要看你工作的层面是在平台层(存储计算)还是应用层。如果是在平台层,可能没有什么简便的方法,只能一步一个脚印地将各个组件的内部机理搞清楚;如果是工作在应用层,可以选择具有合理接口层(或封装层)的平台,以降低学习门槛,提高开发效率。例如,当前已有较多可以提供SQL接口的组件,降低OLAP类应用开发的难度。


大数将来对普通人的生活可预见的影响有哪些?未来智能手机是否也可以使用大数据?如果使用的话,对智能手机的硬件是否会比现在要高很多,普通人是否能够消费得起?——hbyhj


中兴大数据首席架构师作客CSDN专家问答实录



未来大数据会成为基础性的技术,渗透到各行各业,其渗透率之高甚至会让你忽略该技术本身。至于智能手机是否可以使用大数据,我觉得是可以的,需要的硬件配置也并不需要太高,毕竟相关的存储计算可以放在服务器端,手机负责展示即可。



分享精彩 欢迎转载
授权联系中兴大数据(ZTE_BigData)




版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《中兴大数据首席架构师作客CSDN专家问答实录》的版权归原作者「中兴大数据」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

关注中兴大数据微信公众号

中兴大数据微信公众号:ZTE_BigData

中兴大数据

手机扫描上方二维码即可关注中兴大数据微信公众号

中兴大数据最新文章

精品公众号随机推荐