个人大数据(HIVE&HADOOP)环境搭建
为了让自己更好的把玩大数据技术,便需要一个大数据的环境,自己又囊中羞涩,无法购买多台机器来实现集群,因此只能自己用一些开源包来搭建个单机环境,如果各位也有类似的囧境和需求,可以看看这个安装过程。
整个安装过程分为三个步骤;
Ø环境版本信息概述
Ø安装Standalone(独立模式)的HADOOP环境,并验证
Ø安装Standalone(独立模式)的HIVE环境,并验证
一、环境版本信息概述
1、Virtualbox 6.1.22
2、JDK 1.8.0_301
3、HIVE 3.1.3
4、HADOOP 2.10.1
5、Ubuntu 20.04.4 LTS (Focal Fossa)
二、安装Standalone(独立模式)的HADOOP环境,并验证
1、下载Hdoop安装包(注意选择2.*版本)
https://hadoop.apache.org/releases.html
*因为要安装hive,目前官方推荐的是使用2.10的Hadoop版本
2、执行解压
tar -xzvf hadoop-2.10.1.tar
3、调整配置信息
3.1、配置 Hadoop信息
#进入配置目录
cd etc/Hadoop
#配置hadoop信息
#备份hadoop配置信息
cp core-site.xml core-site.xml.bak
vi core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
3.2配置HDFS信息
#备份hdfs配置信息
cp hdfs-site.xml hdfs-site.xml.bak
vi hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3.3配置Mapreduce信息
#从模板文件中复制一份配置文件
cp mapred-site.xml.template mapred-site.xml
#编辑配置信息
Vi mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.application.classpath</name>
<value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
</property>
</configuration>
3.4配置yarn信息
#备份一个yarn配置文件
cp yarn-site.xml yarn-site.xml.bak
#编辑配置信息
vi yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
4、启动测试
4.1配置环境变量
#为方便测试,将HADOOP_HOME变量指向hadoop目录,并将bin和sbin放入PATH变量中
vi ~/.profile
source ~/.profile
4.2启动hdfs
#格式化HDFS目录
hdfs namenode -format
#启动hdfs
start-dfs.sh
4.3启动yarn
#进入sbin目录
./start-yarn.sh
*小错误。启动时JAVA_HOME没有设置。但是实际上在~/.profile文件已经设置了JAVA_HOME,不过没有产生效果.
#我们必须要在Hadoop-env.sh中设置JAVA_HOME变量。。。
vi etc/hadoop/hadoop-env.sh
再次启动yarn即可
4.4、测试HDFS。
#测试指令,显示HDFS根目录
hdfs dfs -ls /
#输出结果,啥也没有。。说明成功了。。。
~测试成功!
三、安装Standalone(独立模式)的HIVE环境,并验证
1、从官网下载最新的HIVE包
https://hive.apache.org/downloads.html
2、放入虚拟机中,执行解压指令
tar -xzvf hive-x.y.z.tar.gz
3、设置环境变量
vi ~/.profile
export HIVE_HOME={{pwd}} --声明HIVE_HOME指向HIVE的bin目录
export PATH=$HIVE_HOME/bin:$PATH --加入到PATH变量
*PS:小问题
新装的Ubuntu默认使用的VI版本是简洁版本,使用VI的时候,敲入方向键,会变成AABB之类的。如下图
解决方法就是重新装vim
sudo apt-get install vim
4、初始化HIVE环境
4.1初始化HIVE的HDFS环境
hdfs dfs -mkdir -p /tmp
hdfs dfs -mkdir -p /user/hive/warehouse
hdfs dfs -chmod g+w /tmp
hdfs dfs -chmod g+w /user/hive/warehouse
4.2初始SCHEMA环境
#创建一个自己常用的目录
#执行初始化动作
schematool -dbType derby -initSchema
5、完毕后,使用Beeline进行连接
beeline -u jdbc:hive2://
现在一切完成~~~但是这也是一切的开始,后续进行数据演练。
参考文章:
https://cwiki.apache.org/confluence/display/Hive//GettingStarted#GettingStarted-InstallingHivefromaStableRelease
https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html