Hadoop怎么了,大数据路在何方?
导读:近期Hadoop消息不断,众说纷纭。本文以Hadoop的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势。
00 15秒钟简缩版
-  
   巅峰已过,正在成为遗留系统 
-  
   Hadoop和分布式数据库在同一个赛道上,Hadoop在这个赛道上目前并无优势 
-  
   大数据市场是 SQL市场,是分布式数据库市场 
-  
   基础分析如BI、交互查询等技术已经成熟 
-  
   高级分析(机器学习)下沉,向数据库内嵌分析方向发展 
-  
   高级分析(机器学习)主要问题不在分析而在数据本身 
01 Hadoop 巅峰已过几多年,正在成为遗留系统
-  
   Hadoop 栈过于复杂,组件众多,集成困难,玩转代价过高 
-  
   Hadoop 创新速度不够(或者说起点过低),且缺乏统一的理念和管控,使得其众多组件之间的集成非常复杂 
-  
   受到Cloud技术的冲击,特别是类S3对象存储提供了比HDFS更廉价、更易用、更可伸缩的存储,撬动了Hadoop的根基HDFS 
-  
   对 Hadoop 期望过高,Hadoop发迹于廉价存储和批处理,而人们期望Hadoop搞定大数据所有问题,期望不匹配造成满意度很低 
-  
   人才昂贵,且人才匮乏 
-  
   Hadoop还有没有前途?Hadoop发展历史和未来方向解读 
-  
   Hadoop 气数已尽:逃离复杂性,拥抱云计算 
-  
   超越云计算:对数据库管理系统未来的思考 
-  
   Big Data Is Still Hard. Here’s Why 
-  
   Big Data Will Get By (but> Cloudera and Hortonworks merger means Hadoop’s influence is declining 
-  
   From data ingestion to insight prediction: Google Cloud smart analytics accelerates your business transformation 
-  
   Hadoop is Dead. Long live Hadoop (中文翻译:Hadoop已死,Hadoop万岁) 
-  
   Hadoop Has Failed Us, Tech Experts Say 
-  
   Hadoop Past, Present, and Future 
-  
   Hadoop: Past, present and future(又一个) 
-  
   Hadoop runs out of gas 
-  
   Hadoop Struggles and BI Deals: What’s Going On? 
-  
   Hitting the Reset Button> Is Hadoop officially dead 
-  
   Mike Olson> More turbulence is coming to the big-data analytics market in 2019 
-  
   Object and Scale-Out File Systems Fill Hadoop Storage Void 
-  
   The Decline of HADOOP and Ushering An Era of Cloud 
-  
   The elephant’s dilemma: What does the future of databases really look like? 
-  
   The Future of Database Management Systems is Cloud! 
-  
   The history of Hadoop 
-  
   Why is Hadoop dying? 
The old way of thinking about Hadoop is dead — done, and dusted. Hadoop as a philosophy to drive an ever-evolving ecosystem of open source technologies and open data standards that empower people to turn data into insights is alive and enduring. 
译文:你所认为的传统的Hadoop已经死了,确实如此。但Hadoop作为一门哲学,推动不断发展的开源技术生态系统和开放数据标准,使人们能够将数据转化为洞察力,这门哲学是充满活力和持久的。 
——Arun C Murthy 
02 Hadoop 市场是数据仓库市场,然而在这个市场里目前并不占优势
-  
   Apache Nutch是Hadoop一哥Doug Cutting 写的开源网页爬虫。为了存储海量网页,Nutch需要一个分布式存储层。受Google GFS论文的启发,Doug 设计了一个开源GFS实现,成为后来的 HDFS。相比于当时昂贵的磁盘阵列和SAN,HDFS提供了廉价、高可靠且可扩展的存储; 
 
-  
   分布式存储层解决后,Nutch需要能适应分布式环境的并行计算模型。受Google MapReduce 论文的启发,Doug 设计了开源版的MapReduce。HDFS和MapReduce解决了大数据的存储和计算问题,受到当时受困于大数据问题的大型互联网公司的追捧,很快 Hadoop 吸引了大量的开发者,成为 Apache 顶级项目; 
-  
   Hadoop解决了有无问题。很快人们发现MapReduce复杂度很高,即使技术实力强大如Facebook都很难写出高效正确的MapReduce程序。此外除了解决批处理问题,人们需要Hadoop能解决其遇到的交互式查询任务。为此,Facebook 开发了Hive,该项目快速流行起来,到现在还有很多用户。Facebook当时更是高达95%的用户使用Hive而不是裸写MapReduce程序。 
-  
   由于Hadoop 不是为交互式处理而设计,Hive 效率低,并发度也低。此外Hive不支持标准SQL,使得和其他产品的集成困难重重。为此Cloudera开发了Impala。Impala 实际上是一款分布式 MPP(大规模并行处理) 数据库。 
For several years now, Cloudera has stopped marketing itself as a Hadoop company, but instead as an enterprise data company. 
03 大数据分析市场当前是 SQL 市场
04 高级数据分析之难点不在分析而在数据本身
05 总结
还想看点啥?
戳戳戳!!!
2.
3. 
4. 
5. 
6. 实践 | 
7. 
截图仅为文章部分示例
学习小密圈  限50人
Q: 关于数据治理,你还想了解什么?
更多精彩,请戳"阅读原文"到"大厂案例"查看
!关注不迷路~ 各种福利、资源定期分享!
