DataX
DataX copied to clipboard
DataX是阿里云DataWorks数据集成的开源版本。
一个作为源,一个作为备份。源的表结构和数据变动使用datax去驱动完全一致的同步能否做到?
什么时候可以支持http restful接口
### What happened? There are 1 security vulnerabilities found in com.alibaba:fastjson 1.2.75 - [CVE-2022-25845](https://www.oscs1024.com/hd/CVE-2022-25845) ### What did I do? Upgrade com.alibaba:fastjson from 1.2.75 to 1.2.83 for vulnerability fix ### What...
源码中增加了一个变量来记录mysql表的总数据量,在处理同一份作业的情况下,有时候nums数量跟mysql count出来的一致,有时候却不一致! 有遇到过类似问题的吗?
datax 3.0 同步mysql数据到hdfs后,出现数据丢失的情况,重试之后又好了,请问一下,你们有没有遇到过?我们的mysql版本是5.6.40 CPU和内存是8核 32GB,jdbc版本是mysql-connector-java-5.1.47.jar ,mysql的原始数据有172067243条记录, 但是第一次同步的时候只有168052232条,重试之后就好了, 我们的配置文件大致如下: ``` { "content":[ { "reader":{ "name":"mysqlreader", "parameter":{ "column":[ "`id`", "`login`", "`mobile`", "`created_at`", "`updated_at`" ], "connection":[ { "jdbcUrl":[ "jdbc:mysql://neo-mysql-prod-slave-data-0.com:3306/user_action?characterEncoding=utf8" ], "table":[ "`users`" ]...
 类似这样的情况是需要一样的账号密码,假如不同的账号密码需要怎么配置在一个datax json中
com.alibaba.datax.common.exception.DataXException: Code:[DBUtilErrorCode-06], Description:[执行数据库 Sql 失败, 请检查您的配置的 column/table/where/querySql或者向 DBA 寻求帮助.]. - 执行的SQL为: select image_count,scan_time,create_time,id from acceptance where ('Fyay8-7ygQ7iQM73`{g7 |d3k'
当 HDFS 的需要读取数据的文件夹下有存在一个大小为0空文件时,并且此时在hdfsreader的path配置的为此目录时会报如下的错误 。  DataX 的 hdfsreader 时直接配置读取的HDFS 目录后,如果此目录下存在空文件时会报异常,尽管此文件类型是合法的。 这里的修复逻辑是:调用filesStatus的getlen()判断文件长度,如果是0就跳过类型判断。 。 另外还对正则表达式的判断做了增强。 之前的代码: ` if (hdfsPath.contains("*") || hdfsPath.contains("?")) {` 之后的代码 ` if (Pattern.compile("\\*|\\?|\\[\\^?\\w+\\]|\\[\\^?\\w-\\w\\]|\\{[\\w\\{\\}\\,]+\\}").matcher(hdfsPath).find()) {`
经过测试支持华为openGauss数据库的数据抽取与写入,为DataX提供新的数据源支持。
是否可以通过下面的方式来解决无法update的问题呢? `INSERT ... ON CONFLICT [ conflict_target ] conflict_action` 例如 ` INSERT INTO test_postgre(id,name,InputTime,age) VALUES('1','postgre','2018-01-10 22:00:00',24) ON conflict(id) DO UPDATE SET name = 'postgreOk', InputTime ='2018-02-22 12:00:00' `