大数据生态圈 Hadoop 笔记- HDFS和YARN常用命令
Hadoop是分布式文件系统,现已成为大数据领域的基础组件,本篇记录hdfs和yarn常用命令。
常用HDFS命令
递归创建目录
hdfs dfs -mkdir -p /data/mytest
查看
hdfs dfs -ls /data/mytest
上传文件或目录
hdfs dfs -put /home/test/empinfo.txt /data/mytest
删除目录
hdfs dfs -rm -r /data/mytest
查看最后几行
hdfs dfs -cat /data/mytest/* |tail -100
随机返回指定行数的样本数据:
hdfs dfs -cat /data/mytest/* |shuf -n 5
返回前几行:
hdfs dfs -cat /data/mytest/* |head -100
复制文件
hdfs dfs -cp /data/mytest/empinfo.txt /data/test/empinfo_backup.txt
移动
hdfs dfs -mv /data/mytest/empinfo.txt data/test
最后几行:
hdfs dfs -cat /data/mytest/* |tail -100
文本行数:
hdfs dfs -cat /data/test/empinfo.txt |wc -l
获取文件:
hdfs dfs -get /data/test/empinfo.txt /home/test/empinfo.txt
目录大小
hadoop fs -du -h /data/test
hdfs 端对端备份数据:
nohup hadoop distcp -skipcrccheck -update -m 20 hdfs://master:8020/data/mytest/empinfo.txt /user/mytest/ >> /home/mytest/hdfs_backup.log 2>&1 &
常用 yarn 命令
查看任务列表
yarn application -list
查看任务占用资源
yarn application -status $applicationId
查看集群资源
yarn top
停止任务
yarn application -kill $applicationId
查看日志
yarn logs -applicationId $applicationId
提交 Hadoop maprudece 任务
hadoop jar xxx.jar mainclass args
或
yarn jar xxx.jar mainclass args