vlambda博客
学习文章列表

大数据生态圈 Hadoop 笔记- HDFS和YARN常用命令

Hadoop是分布式文件系统,现已成为大数据领域的基础组件,本篇记录hdfs和yarn常用命令。

常用HDFS命令


递归创建目录

 hdfs dfs -mkdir -p /data/mytest


查看

 hdfs dfs -ls /data/mytest


上传文件或目录

hdfs dfs -put /home/test/empinfo.txt /data/mytest


删除目录

 hdfs dfs -rm  -r /data/mytest


查看最后几行

hdfs dfs -cat /data/mytest/* |tail -100


随机返回指定行数的样本数据:

hdfs dfs -cat /data/mytest/* |shuf -n 5


返回前几行:

hdfs dfs -cat /data/mytest/* |head -100


复制文件

hdfs dfs -cp /data/mytest/empinfo.txt /data/test/empinfo_backup.txt


移动

hdfs dfs -mv /data/mytest/empinfo.txt  data/test


最后几行:

hdfs dfs -cat /data/mytest/* |tail -100


文本行数:

hdfs dfs -cat /data/test/empinfo.txt |wc -l


获取文件:

hdfs dfs  -get /data/test/empinfo.txt /home/test/empinfo.txt


目录大小

hadoop fs -du -h /data/test


hdfs 端对端备份数据:

nohup hadoop distcp -skipcrccheck -update -m 20 hdfs://master:8020/data/mytest/empinfo.txt /user/mytest/ >> /home/mytest/hdfs_backup.log 2>&1 &


常用 yarn 命令


查看任务列表

yarn application -list


查看任务占用资源

yarn application -status $applicationId 


查看集群资源

yarn top


停止任务

 yarn application -kill $applicationId 


查看日志

 yarn logs -applicationId $applicationId 


提交 Hadoop maprudece 任务

hadoop jar xxx.jar mainclass args

 yarn jar xxx.jar mainclass args