DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
job 文件夹中存放需要进行数据同步的 配置信息,是主要的操作对象
使用中遇到了一些设置上需要注意的问题
下载tar.gz 文件并解压后 , 使用命令 python datax.py /job/job.json 测试是否安装成功时, 注意在Windows下 需要修改 /job 路径 为 python datax.py ../job/job.json , 否则会出现找不到路径的问题
datax 3.0 基于Python 2.6+ 版本开发, 在使用Python 3 的环境时需要 替换 bin文件下的 py文件 , https://github.com/TwoThreeWang/DataX_Python3
默认的配置文件直接从网上搜索配置的话 可能会出现json格式不对的提示, 实际需要 通过命令找到 当前版本datax中配置的模版 运行"python datax.py -r sqlserverreader -w sqlserverwriter" 会输出一套模版,更改模版中对应的值即可 ,(reader 中可能需要输入 column 参数, 具体情况参照 执行过程中的异常提示解决即可)