14
2020
10

DataX使用

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

job 文件夹中存放需要进行数据同步的 配置信息,是主要的操作对象

使用中遇到了一些设置上需要注意的问题 

  • 下载tar.gz 文件并解压后 ,  使用命令  python datax.py /job/job.json  测试是否安装成功时, 注意在Windows下 需要修改  /job  路径 为 python datax.py ../job/job.json , 否则会出现找不到路径的问题

  • datax 3.0 基于Python 2.6+ 版本开发,   在使用Python 3 的环境时需要 替换 bin文件下的 py文件  , https://github.com/TwoThreeWang/DataX_Python3

  • 默认的配置文件直接从网上搜索配置的话 可能会出现json格式不对的提示, 实际需要 通过命令找到 当前版本datax中配置的模版  运行"python datax.py -r sqlserverreader -w sqlserverwriter" 会输出一套模版,更改模版中对应的值即可 ,(reader 中可能需要输入 column 参数, 具体情况参照 执行过程中的异常提示解决即可)

« 上一篇下一篇 »

豫ICP备13016324号

mdeveloper