转载

发表于 2016年07月10日
浏览 (742)
评论 (0)

HData——ETL 数据导入/导出工具

HData是一个异构的ETL数据导入/导出工具，致力于使用一个工具解决不同数据源（JDBC、Hive、HDFS、HBase、MongoDB、FTP、Http、CSV、Excel、Kafka等）之间数据交换的问题。HData在设计上同时参考了开源的Sqoop、DataX，却与之有不同的实现。HData采用“框架+插件”的结构，具有较好的扩展性，框架相当于数据缓冲区，插件则为访问不同的数据源提供实现。

HData——ETL 数据导入/导出工具

【HData特性】

1、异构数据源之间高速数据传输；

2、跨平台独立运行；

3、数据传输过程全内存操作，不读写磁盘；

4、插件式扩展。

HData——ETL 数据导入/导出工具

【HData设计】

配置文件：XML格式，配置Reader、Writer的参数（如：并行度、数据库连接地址、账号、密码等）；
Reader：数据读取模块，负责从数据源读取数据并写入RingBuffer；
Splitter：根据配置文件中Reader的并行度构造相应数据的ReaderConfig对象供Reader使用，以实现数据的并行读取；
RingBugffer：来自Disruptor的高性能环形数据缓冲区，基于事件监听模式的异步实现，采用无锁方式针对CPU缓存优化，在此用于Reader和Writer的数据交换；
Writer：数据写入模块，负责从RingBuffer中读取数据并写入目标数据源。

HData框架通过配置读取解析、RingBugffer 缓冲区、线程池封装等技术，统一处理了数据传输中的基本问题，并提供Reader、Splitter、Writer插件接口，基于此可以方便地开发出各种插件，以满足各种数据源访问的需求。

【编译&运行】

编译

执行 ./bin/package-hdata.sh 命令，执行成功后将会生成压缩包 ./buildhdata.tar.gz ，然后解压即可。

运行

./bin/hdata --reader READER_NAME -Rk1=v1 -Rk2=v2 --writer WRITER_NAME -Wk1=v1 -Wk2=v2

READER_NAME、WRITER_NAME分别为读/写插件的名称，例如：jdbc、hive Reader插件的参数配置以-R为前缀，Writer插件的参数配置以-W为前缀。

配置参数请参考： https://github.com/stuxuhai/HData

原文 http://www.oschina.net/p/hdata?fromerr=1snjQMGU

正文到此结束

所属分类：编程技术

本文标签： db HBase MongoDB 开源编译 HDFS Disruptor 锁线程需求开发线程池数据库 GitHub 参数 http tar 数据插件 UI Excel src https 配置 XML build git sqoop 解析 ftp
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

openfire数据库安装指南

浏览(14,992) 评论(0)
Caffe 深度学习框架上手教程

浏览(11,259) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(12,059) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(11,963) 评论(0)
Decorators in ES7

浏览(16,581) 评论(4)
用Electron（Atom编辑器的兄弟项目）开发桌面应用

浏览(29,551) 评论(0)
Windows下JetBrains CLion中文输出乱码的解决方法

浏览(12,997) 评论(1)
同步-@synchronized, NSLock, pthread, OSSpinLock性能比较

浏览(11,912) 评论(0)
【开班了】JAVA培训班正式招生

浏览(8,055) 评论(12)
Seaweedfs之Volume读请求重定向

浏览(26,209) 评论(3)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG