转载

【源】从零自学Hadoop(11)：Hadoop命令上

阅读目录

序
概述
Hadoop Common Commands
User Commands
Administration Commands
File System Shell
引用
系列索引

本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。

文章是哥(mephisto)写的，SourceLink

上一篇，我们从发展历程，架构，MapReduce等方面对比了Hadoop1.x与Hadoop2.x,特别是这这几年，2.x的发展已经可以适合很多的应用场景了。前面我们通过Eclipse插件来进行文件的上传，删除等，下面我们熟悉下Hadoop命令，从而更能直接，强力的对Hadoop进行操作。

下面，我们就开始对Hadoop命令进行粗略的解析。本文有些地方是自己翻译的，翻译的不好望见谅。本章节内容较多，还是分为上下两部分。

一：概述

所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。

用法：hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]

Hadoop有一个选项解析框架用于解析一般的选项和运行类。

命令选项	描述
`--config confdir`	覆盖缺省配置目录。缺省是${HADOOP_HOME}/conf。
`--loglevel loglevel`	覆盖日志级别. 有效的日志级别是 FATAL, ERROR, WARN, INFO, DEBUG, and TRACE. 默认是 INFO.
GENERIC_OPTIONS	多个命令都支持的通用选项。
COMMAND_OPTIONS	各种各样的命令和它们的选项会在下面提到。 HDFS and YARN 在其他文档有讲解。

二：常规选项

很多子命令通过配置选项来改变他们的行为。

GENERIC_OPTION	描述
`-archives <comma separated list of archives>`	指定要在计算机一个逗号分隔的档案。仅适用于job。
`-conf <configuration file>`	指定应用程序的配置文件。
`-D <property>=<value>`	为指定property指定值value。
`-files <comma separated list of files>`	指定要拷贝到map reduce集群的文件的逗号分隔的列表。只适用于job。
`-jt <local> or <resourcemanager:port>`	指定job tracker。只适用于job 。
`-libjars <comma seperated list of jars>`	指定要包含到classpath中的jar文件的逗号分隔的列表。只适用于job.

Hadoop Common Commands

一：介绍

所有这些命令都是从Hadoop的shell命令执行。他们被分成用户命令和管理命令。

User Commands

一：介绍

用于Hadoop集群用户命令。

二：archive

创建一个hadoop档案文件。参考 Hadoop Archives Guide .

用法： hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest>

-archiveName 你想创造档案的名字.

-p 制定父路径，制定了后，后面的src dest都是相对路径

src 文件系统的路径名，和通常含正则表达的一样。

dest 保存档案文件的目标目录。

三：checknative

这个命令检查Hadoop本地代码的可用性。 See #NativeLibraries.html for more information. 默认情况下，此命令只检查libhadoop的可用性。

用法: hadoop checknative [-a] [-h]

COMMAND_OPTION	Description
`-a`	Check all libraries are available.
`-h`	print help

四：classpath

打印Hadoop jar和所需的libs的class路径。

用法: hadoop classpath [--glob |--jar <path> |-h |--help]

COMMAND_OPTION	Description
`--glob`	expand wildcards
`--jar` path	write classpath as manifest in jar named path
`-h` , `--help`	print help

五：credential

用于管理 credentials, passwords and secrets

用法: hadoop credential <subcommand> [options]

COMMAND_OPTION	Description
create alias [-provider provider-path ]	Prompts the user for a credential to be stored as the given alias. The hadoop.security.credential.provider.path within the core-site.xml file will be used unless a `-provider` is indicated.
delete alias [-provider provider-path ] [-f]	Deletes the credential with the provided alias. The hadoop.security.credential.provider.path within the core-site.xml file will be used unless a `-provider` is indicated. The command asks for confirmation unless `-f` is specified
list [-provider provider-path ]	Lists all of the credential aliases The hadoop.security.credential.provider.path within the core-site.xml file will be used unless a `-provider` is indicated.

六：distcp

递归复制文件或目录. More information can be found at Hadoop DistCp Guide.

七：fs

这个命令在 File System Shell Guide 描述. 在HDFS使用中,hdfs,dfs是相同的。

八：jar

执行一个jar文件。使用 yarn jar 来运行Yarn app来代替。

使用: hadoop jar <jar> [mainClass] args...

九：key

通过KeyProvider来管理keys。

十：trace

查看和修改Hadoop tracing 设置。 See the Tracing Guide .

十一：version

打印版本

用法： hadoop version

十二：CLASSNAME

脚本可用于调调用任何类

用法： hadoop CLASSNAME

Administration Commands

一：介绍

用于管理Hadoop cluster

二：daemonlog

获取/设置在后台Log的级别

用法：hadoop daemonlog -getlevel <host:httpport> <classname>hadoop daemonlog -setlevel <host:httpport> <classname> <level>

例如： $ bin/hadoop daemonlog -setlevel 127.0.0.1:50070 org.apache.hadoop.hdfs.server.namenode.NameNode DEBUG

File System Shell

一：介绍

调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是 scheme://authority/path 。对HDFS文件系统，scheme是 hdfs ，对本地文件系统，scheme是 file 。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。一个HDFS文件或目录比如 /parent/child 可以表示成 hdfs://namenode:namenodeport/parent/child ，或者更简单的 /parent/child （假设你配置文件中的默认值是 namenode:namenodeport ）。大多数FS Shell命令的行为和对应的Unix Shell命令类似，不同之处会在下面介绍各命令使用详情时指出。出错信息会输出到 stderr ，其他信息输出到 stdout 。

二： appendToFile

附加单个或多个src从本地文件系统到目标文件系统，另外从stdin读取输入并追加到目标文件系统。

用法: hadoop fs -appendToFile <localsrc> ... <dst>

三：cat

将路径指定文件的内容输出到 stdout 。

用法: hadoop fs -cat URI [URI ...]

四：checksum

返回文件的校验信息。

用法: hadoop fs -checksum URI

五：chgrp

改变文件所属的组。使用 -R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户

用法: hadoop fs -chgrp [-R] GROUP URI [URI ...]

六：chmod

改变文件的权限。使用 -R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户

用法: hadoop fs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI ...]

七：chown

改变文件的拥有者。使用 -R将使改变在目录结构下递归进行。命令的使用者必须是超级用户

用法： hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]

八： copyFromLocal

除了限定源路径是一个本地文件外，和put命令相似。

用法： hadoop fs -copyFromLocal <localsrc> URI

九： copyToLocal

除了限定目标路径是一个本地文件外，和get命令类似。

用法: hadoop fs -copyToLocal [-ignorecrc] [-crc] URI <localdst>

十：count

计算在匹配指定文件模式的路径下的目录、文件和字节数

用法: hadoop fs -count [-q] [-h] [-v] <paths>

十一：cp

将文件从源路径复制到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。

用法: hadoop fs -cp [-f] [-p | -p[topax]] URI [URI ...] <dest>

十二：createSnapshot

See HDFS Snapshots Guide .

十三：deleteSnapshot

See HDFS Snapshots Guide .

十四：df

显示free空间。

用法: hadoop fs -df [-h] URI [URI ...]

十五：du

显示目录中所有文件的大小，或者当只指定一个文件时，显示此文件的大小

用法: hadoop fs -dus <args>

十六：expunge

清空回收站。请参考 HDFS Architecture Guide 以获取更多关于回收站特性的信息。

用法: hadoop fs -expunge

十七：find

查找与指定表达式匹配的所有文件，并将选定的操作应用于它们。如果没有指定路径，则默认为当前工作目录。如果没有指定表达式，则默认为打印。

用法: hadoop fs -find <path> ... <expression> ...

十八：get

复制文件到本地文件系统。可用 -ignorecrc选项复制CRC校验失败的文件。使用 -crc选项复制文件以及CRC信息。

用法: hadoop fs -getfacl [-R] <path>

十九：getfacl

显示访问控制列表（ACL）的文件和目录。如果一个目录中有一个默认的ACL，然后getfacl也显示默认的ACL。

用法: hadoop fs -getfacl [-R] <path>

二十：getfattr

显示文件或目录的扩展属性名和值（如果有的话）

用法: hadoop fs -getfattr [-R] -n name | -d [-e en] <path>

二十一：getmerge

接受一个源目录和一个目标文件作为输入，并且将源目录中所有的文件连接成本地目标文件。 addnl是可选的，用于指定在每个文件结尾添加一个换行符。

用法: hadoop fs -getmerge <src> <localdst> [addnl]

二十二：help

返回使用输出

用法: hadoop fs -help

二十三：ls

如果是文件，则按照如下格式返回文件信息：

文件名 <副本数> 文件大小修改日期修改时间权限用户ID 组ID

如果是目录，则返回它直接子文件的一个列表，就像在Unix中一样。目录返回列表的信息如下：

目录名 <dir> 修改日期修改时间权限用户ID 组ID

用法: hadoop fs -ls [-d] [-h] [-R] [-t] [-S] [-r] [-u] <args>

二十四：lsr

ls命令的递归版本。类似于Unix中的 ls -R。

用法: hadoop fs -lsr <args>

二十五：mkdir

接受路径指定的uri作为参数，创建这些目录。其行为类似于Unix的mkdir -p，它会创建路径中的各级父目录。

用法: hadoop fs -mkdir [-p] <paths>

二十六：moveFromLocal

类似put的用法，在copy后除了source localsrc都删除。

用法: hadoop fs -moveFromLocal <localsrc> <dst>

二十七：moveToLocal

输出一个”not implemented“信息。

用法: hadoop fs -moveToLocal [-crc] <src> <dst>

二十八：mv

将文件从源路径移动到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。不允许在不同的文件系统间移动文件。

用法: hadoop fs -mv URI [URI ...] <dest>

二十九：put

从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从标准输入中读取输入写入目标文件系统。

用法: hadoop fs -put <localsrc> ... <dst>

三十：renameSnapshot

See HDFS Snapshots Guide .

三十一：rm

删除指定的文件。只删除非空目录和文件。请参考rmr命令了解递归删除。

用法: hadoop fs -rm [-f] [-r |-R] [-skipTrash] URI [URI ...]

三十二：rmdir

删除一个文件夹

用法: hadoop fs -rmdir [--ignore-fail-on-non-empty] URI [URI ...]

三十三：rmr

delete的递归版本。

用法: hadoop fs -rmr [-skipTrash] URI [URI ...]

三十四：setfacl

设置访问控制列表（ACL）的文件和目录

用法: hadoop fs -setfacl [-R] [-b |-k -m |-x <acl_spec> <path>] |[--set <acl_spec> <path>]

三十五：setfattr

设置一个文件或目录的扩展属性名和值

用法: hadoop fs -setfattr -n name [-v value] | -x name <path>

三十六：setrep

改变一个文件的副本系数。-R选项用于递归改变目录下所有文件的副本系数。

用法: hadoop fs -setrep [-R] [-w] <numReplicas> <path>

三十七： stat

返回指定路径的统计信息。

用法: hadoop fs -stat [format] <path> ...

三十八：tail

将文件尾部1K字节的内容输出到stdout。支持-f选项，行为和Unix中一致。

用法: hadoop fs -tail [-f] URI

三十九：test

选项：

-e 检查文件是否存在。如果存在则返回0。

-z 检查文件是否是0字节。如果是则返回0。

-d 如果路径是个目录，则返回1，否则返回0。

用法: hadoop fs -test -[defsz] URI

四十：text

将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream。

用法: hadoop fs -text <src>

四十一：touchz

创建一个0字节的空文件。

用法: hadoop fs -touchz URI [URI ...]

四十二：truncate

截断指定文件模式指定的长度匹配的所有文件。

用法: hadoop fs -truncate [-w] <length> <paths>

四十三：usage

返回单个命令的帮助。

用法: hadoop fs -usage command

--------------------------------------------------------------------

到此，本章节的内容讲述完毕。

Apache hadoop commands: http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/CommandsManual.html

Apache File System Shell: http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

Apache 1.04 中文： http://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html

系列索引

【源】从零自学Hadoop系列索引

本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。

文章是哥(mephisto)写的，SourceLink

正文到此结束

所属分类：编程技术

本文标签： 目录 node 集群管理 HTML provider 删除 tab cat IDE App 参数 http unix description UI Apache Hadoop 插件 ask Hadoop find 配置 CTO list 统计 classpath map 空间 value core 翻译 ip apr TCP key src apache shell Namenode 时间 XML lib zip eclipse HDFS 代码解析 dist 博客
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

【源】从零自学Hadoop(11)：Hadoop命令上

阅读目录

一：概述

二：常规选项

Hadoop Common Commands

一：介绍

User Commands

一：介绍

二：archive

三：checknative

四：classpath

五：credential

六：distcp

七：fs

八：jar

九：key

十：trace

十一：version

十二：CLASSNAME

Administration Commands

一：介绍

二：daemonlog

File System Shell

一：介绍

二： appendToFile

三：cat

四：checksum

五：chgrp

六：chmod

七：chown

八： copyFromLocal

九： copyToLocal

十：count

十一：cp

十二：createSnapshot

十三：deleteSnapshot

十四：df

十五：du

十六：expunge

十七：find

十八：get

十九：getfacl

二十：getfattr

二十一：getmerge

二十二：help

二十三：ls

二十四：lsr

二十五：mkdir

二十六：moveFromLocal

二十七：moveToLocal

二十八：mv

二十九：put

三十：renameSnapshot

三十一：rm

三十二：rmdir

三十三：rmr

三十四：setfacl

三十五：setfattr

三十六：setrep

三十七： stat

三十八：tail

三十九：test

四十：text

四十一：touchz

四十二：truncate

四十三：usage

系列索引

热门推荐

相关文章

说给你听

本文目录

随机标签

书籍教程

近期评论

网站信息

其他链接

关于本站

问题交流