大数据百科全书(三)-Hadoop入门
1
hadoop是什么
Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。
几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。
今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。
2
hadoop的核心
3
hadoop到底要解决什么
1、存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka;
2、计算,海量的数据怎样快速计算?主要包括MapReduce、Spark、Flink等;
3、查询,海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主要解决随机查询,Olap技术主要解决关联查询;
4、挖掘,海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、caffe、mahout等;
4
hadoop具体应用场景
Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。
5
hadoop生态