vlambda博客
学习文章列表

个人大数据(HIVE&HADOOP)环境搭建

为了让自己更好的把玩大数据技术,便需要一个大数据的环境,自己又囊中羞涩,无法购买多台机器来实现集群,因此只能自己用一些开源包来搭建个单机环境,如果各位也有类似的囧境和需求,可以看看这个安装过程。

   整个安装过程分为三个步骤;

Ø环境版本信息概述

Ø安装Standalone(独立模式)的HADOOP环境,并验证

Ø安装Standalone(独立模式)的HIVE环境,并验证

一、环境版本信息概述

1、Virtualbox 6.1.22

2、JDK 1.8.0_301

3、HIVE 3.1.3

4、HADOOP 2.10.1

5、Ubuntu 20.04.4 LTS (Focal Fossa)

二、安装Standalone(独立模式)的HADOOP环境,并验证

1、下载Hdoop安装包(注意选择2.*版本)

https://hadoop.apache.org/releases.html

*因为要安装hive,目前官方推荐的是使用2.10的Hadoop版本

2、执行解压

tar -xzvf hadoop-2.10.1.tar

3、调整配置信息

3.1、配置 Hadoop信息

#进入配置目录

cd etc/Hadoop

#配置hadoop信息

#备份hadoop配置信息

cp core-site.xml core-site.xml.bak

vi core-site.xml


 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property></configuration>


   


3.2配置HDFS信息

#备份hdfs配置信息

cp hdfs-site.xml hdfs-site.xml.bak

vi hdfs-site.xml

 

 <configuration> <property> <name>dfs.replication</name> <value>1</value> </property></configuration>


   


3.3配置Mapreduce信息

#从模板文件中复制一份配置文件

cp mapred-site.xml.template mapred-site.xml

#编辑配置信息

Vi mapred-site.xml


 <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.application.classpath</name> <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value> </property></configuration>


   



3.4配置yarn信息

#备份一个yarn配置文件

cp yarn-site.xml yarn-site.xml.bak

#编辑配置信息

vi yarn-site.xml



<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.env-whitelist</name> <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME</value> </property></configuration>


   



4、启动测试

4.1配置环境变量

#为方便测试,将HADOOP_HOME变量指向hadoop目录,并将bin和sbin放入PATH变量中

vi ~/.profile

source ~/.profile


4.2启动hdfs

#格式化HDFS目录

hdfs namenode -format

#启动hdfs

start-dfs.sh



4.3启动yarn

#进入sbin目录

./start-yarn.sh



*小错误。启动时JAVA_HOME没有设置。但是实际上在~/.profile文件已经设置了JAVA_HOME,不过没有产生效果.

个人大数据(HIVE&HADOOP)环境搭建

#我们必须要在Hadoop-env.sh中设置JAVA_HOME变量。。。

vi etc/hadoop/hadoop-env.sh

个人大数据(HIVE&HADOOP)环境搭建

再次启动yarn即可

4.4、测试HDFS。

#测试指令,显示HDFS根目录

hdfs dfs -ls /



#输出结果,啥也没有。。说明成功了。。。


~测试成功!


三、安装Standalone(独立模式)的HIVE环境,并验证

1、从官网下载最新的HIVE包

https://hive.apache.org/downloads.html

2、放入虚拟机中,执行解压指令

tar -xzvf hive-x.y.z.tar.gz

个人大数据(HIVE&HADOOP)环境搭建

3、设置环境变量

vi ~/.profile

个人大数据(HIVE&HADOOP)环境搭建

export HIVE_HOME={{pwd}}    --声明HIVE_HOME指向HIVE的bin目录
export PATH=$HIVE_HOME/bin:$PATH  --加入到PATH变量


*PS:小问题

新装的Ubuntu默认使用的VI版本是简洁版本,使用VI的时候,敲入方向键,会变成AABB之类的。如下图

个人大数据(HIVE&HADOOP)环境搭建

解决方法就是重新装vim

sudo apt-get install vim



4、初始化HIVE环境

4.1初始化HIVE的HDFS环境

hdfs dfs -mkdir -p /tmphdfs dfs -mkdir -p /user/hive/warehousehdfs dfs -chmod g+w /tmphdfs dfs -chmod g+w /user/hive/warehouse


个人大数据(HIVE&HADOOP)环境搭建

4.2初始SCHEMA环境

#创建一个自己常用的目录

个人大数据(HIVE&HADOOP)环境搭建

#执行初始化动作

schematool -dbType derby -initSchema


5、完毕后,使用Beeline进行连接

beeline -u jdbc:hive2://


现在一切完成~~~但是这也是一切的开始,后续进行数据演练。


参考文章:

https://cwiki.apache.org/confluence/display/Hive//GettingStarted#GettingStarted-InstallingHivefromaStableRelease

https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html