转载

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

阅读目录

序
将查询的结果写入文件系统
集群数据迁移一
集群数据迁移二
系列索引

本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。

文章是哥(mephisto)写的，SourceLink

上一篇，我们介绍了Hive的数据多种方式导入，这样我们的Hive就有了数据来源了，但有时候我们可能需要纯粹的导出，或者集群Hive数据的迁移（不同集群，不同版本），我们就可以通过这两章的知识来实现。

下面我们开始介绍hive的数据导出，以及集群Hive数据的迁移进行描述。

将查询的结果写入文件系统

一：说明

将上篇中从其他表导入语法进行简单的修改，就可以将查询的结果写入到文件系统。

二：语法：

 Standard syntax: INSERT OVERWRITE [LOCAL] DIRECTORY directory1   [ROW FORMAT row_format] [STORED AS file_format] (Note: Only available starting with Hive 0.11.0)   SELECT ... FROM ...   Hive extension (multiple inserts): FROM from_statement INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1 [INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2] ...     row_format   : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]         [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]         [NULL DEFINED AS char] (Note: Only available starting with Hive 0.13)

三：写入到本地

如果使用LOCAL，则数据会写入到本地

四：写入到集群

如果不使用LOCAL,则数据会写到指定的HDFS中，如果没写全路径，则使用Hadoop的配置项 fs.default.name （NameNode的URI）。

五：实战

修改tmp文件夹权限（这里只是测试，所以使用最大权限）

 chmod 777 tmp

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

进入Hive

 sudo -u hdfs hive

将上一篇中的score表数据导出到本地

 insert overwrite local directory  '/data/tmp/score' select * from score;

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

我们可以看到/data/tmp/score/目录下有文件。

 cd /data/tmp/score ll

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

这样我们就把hive的数据导出到本地了。

下面我们使用不带local参数的命令，将hive表数据导到hdfs中

 insert overwrite  directory  '/data/tmp/score' select * from score;

我们使用hdfs的ls命令查看

 hadoop fs -ls /data/tmp/score

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

这里文件只有一个，和上面的不一样，但总的内容是一样的，上面同样的数据导出，有时候也只有一个文件。这里就不做考究了。

集群数据迁移一

一：介绍

在官网里，我们可以看到EXPORT和IMPORT，该功能从Hive0.8开始加入进来。

二：Export/Import

导出命令根据元数据导出表或者分区，输出位置可以是另一个Hadoop集群或者HIVE实例。支持带有分区的表。导出的元数据存储在目标目录，数据文件存储在子目录。

导入导出的源和目标的元数据存储DBMS可以是不同的关系型数据库。

三：Export语法

 EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])]   TO 'export_target_path'

四：Import语法

 IMPORT [[EXTERNAL] TABLE new_or_original_tablename [PARTITION (part_column="value"[, ...])]]   FROM 'source_path'   [LOCATION 'import_target_path']

五：官方例子

简单导入导出

 export table department to 'hdfs_exports_location/department'; import from 'hdfs_exports_location/department';

改名导入导出

 export table department to 'hdfs_exports_location/department'; import table imported_dept from 'hdfs_exports_location/department';

分区导出

 export table employee partition (emp_country="in", emp_state="ka") to 'hdfs_exports_location/employee'; import from 'hdfs_exports_location/employee';

分区导入

 export table employee to 'hdfs_exports_location/employee'; import table employee partition (emp_country="us", emp_state="tn") from 'hdfs_exports_location/employee';

指定导入位置

 export table department to 'hdfs_exports_location/department'; import table department from 'hdfs_exports_location/department'         location 'import_target_location/department';

作为外部表导入

 export table department to 'hdfs_exports_location/department'; import external table department from 'hdfs_exports_location/department';

集群数据迁移二

一：介绍

虽然官方的Export/Import命令很强大，但在实际使用中，可能是版本的不同，会出现无法导入的情况，自己在这块也琢磨了下，总结出自己的一套带有分区的Hive表数据迁移方案，该方案在Cloudera和Hontorworks的集群中成功迁移过，Hive版本也不一致。

二：导出数据

由于Cloudera的发行版本CDH-5.3.3的Hive版本低于0.8所以用这个作为数据源。

创建带分区表score

 create table score (   id                int,   studentid       int,   score              double ) partitioned by (openingtime string);

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

根据上一篇中导入数据的方式导入7，8月数据

 load data local inpath '/data/tmp/score_7.txt' overwrite into table score PARTITION (openingtime=201507);

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

参考我们上面的导出到本地还是放在/data/tmp/score下

 insert overwrite local directory  '/data/tmp/score' select * from score;

三：迁移数据

在另外一个集群新建/data/tmp目录

  mkdir  -p /data/tmp/score

拷贝数据

  scp /data/tmp/score/* root@h188:/data/tmp/score/

查看

 cd /data/tmp/score ll

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

四：创建分区表和没有分区的临时表

被导入的集群是Hortonworks的HDP-2.7.1发行版本。

分区表就是我们最终的目标表，没有分区的临时表时过度用的。

进入Hive

 sudo -u hdfs hive

创建带分区的表

 create table score (   id                int,   studentid       int,   score              double ) partitioned by (openingtime string);

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

创建不带分区的临时表

  create table score1(      id int,      studentid int,      score double,      openingtime string );

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

五：将数据导入临时表

 load data local inpath '/data/tmp/score' into table score1;

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

我们查下导进来的数据

 select * from score1;

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

六：从临时表导入到分区表

 set  hive.exec.dynamic.partition=true;    set  hive.exec.dynamic.partition.mode=nonstrict;    set  hive.exec.max.dynamic.partitions.pernode=10000;  #导入 insert overwrite table score partition(openingtime) select * from score1;

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

查询

 select * from score;

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

我们在hdfs中查看下hive的文件

 hadoop fs -ls -R /apps/hive/warehouse/score

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

可以明显的看到根据openingtime分区了。

七：删除临时表

 drop table score1

八：删除临时数据

 rm -rf /data/tmp/score

这样我们的Hive集群数据迁移告一段落。

--------------------------------------------------------------------

到此，本章节的内容讲述完毕。

系列索引

【源】从零自学Hadoop系列索引

本文版权归mephisto和博客园共有，欢迎转载，但须保留此段声明，并给出原文链接，谢谢合作。

文章是哥(mephisto)写的，SourceLink

原文 http://www.cnblogs.com/mephisto/p/5089817.html

正文到此结束

所属分类：编程技术

本文标签： tab cat CTO 总结 Hadoop 数据库数据参数 2015 测试 tar UI value 文章 root 配置 key 博客 rmi ip map 实例删除目录 mina Namenode Select http db HDFS HTML core node 集群 App src
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

【源】从零自学Hadoop(17)：Hive数据导入导出，集群数据迁移下

阅读目录

将查询的结果写入文件系统

一：说明

二：语法：

三：写入到本地

四：写入到集群

五：实战

集群数据迁移一

一：介绍

二：Export/Import

三：Export语法

四：Import语法

五：官方例子

集群数据迁移二

一：介绍

二：导出数据

三：迁移数据

四：创建分区表和没有分区的临时表

五：将数据导入临时表

六：从临时表导入到分区表

七：删除临时表

八：删除临时数据

系列索引

热门推荐

相关文章

说给你听

本文目录

随机标签

书籍教程

近期评论

网站信息

其他链接

关于本站

问题交流