大数据开发套件—数据集成常见问题

q：配置数据同步任务，在选择数据源时，出现下图中的错误，该怎么办？

a：建议您刷新页面，清空缓存，重新登录。

q：数据同步时，如何进行增量同步？

q：新增数据源时，rds 数据源测试连通性不通怎么办？

a：当 rds 数据源测试连通性不通时，需要到自己的 rds 上添加数据同步机器 ip 白名单：

10.152.69.0/24,10.153.136.0/24,10.143.32.0/24,120.27.160.26,10.46.67.156,120.27.160.81,10.46.64.81,121.43.110.160,10.117.39.238,121.43.112.137,10.117.28.203,118.178.84.74,10.27.63.41,118.178.56.228,10.27.63.60,118.178.59.233,10.27.63.38,118.178.142.154,10.27.63.15,100.64.0.0/8

注意：若使用自定义资源组调度 rds 的数据同步任务，必须把自定义资源组的机器 ip 也加到 rds 的白名单中，同时要确保以下问题正常：

网络：确保网络和端口之间是能够联通，网络连接失败，可以再检查一下 ecs 的防火墙以及安全组设置；

确保添加的信息正确：用户名密码jdbcurl 中的 ip 地址和端口必须确保正确；

确保自建的数据库涉及的安全访问限制，权限的限制和能否远程登录的情况；

在 vpc 的环境下购买的 ecs 只能用脚本模式运行任务，在添加数据源时测试连通性不能成功。购买 ecs 可以添加自定义资源，将同步任务下发到相应的资源组运行。

q. 配置数据同步任务时，到字段映射步骤时页面一直处于跳转状态？

a. 为了防止缓存问题导致使用异常，请先清理缓存，若依旧有误，请确保数据源存在并有效。

q. 为什么在浏览器和版本都正确的情况下，进入数据集成总是空白页？

a. 查看是否绑定了host。

q. maxcompute的数据怎么同步到mysql?

q. 数据同步时报错，日志提示： code:[framework-13], description:[datax插件运行时出错, 具体原因请参看datax运行结束时的错误诊断信息 .]. - java.lang.outofmemoryerror: java heap space at java.util.arrays.copyof(arrays.java:3236)

a. 由于您的任务数据量稍大并且同步的速度太快，一般是接近10m每秒，导致调度服务器内存溢出报错。您可以通过以下几种方法进行调错：

在大数据开发套件->数据集成-查看数据同步任务的速度情况，一般出现内存溢出都是速度设置过大导致的，这里建议尝试把同步速度调小；

在大数据开发套件->数据开发-查看数据同步任务的同步速度是否太大，检查该调度资源是否有其他大的任务或有比较多的任务在执行；

先尝试把同步速度调小，查看其他任务执行状态，资源比较多的时候执行同步；

将数据任务分时间段来执行，不要在同一时间执行，另外同步速度不宜很大。如果有需求，可以考虑增加调度服务器的配置或者实例。

q. maxcompute 可以通过同步任务回流数据到用户自建的 mysql（非阿里云 mysql）吗?

a. 可以

q. 对于大量数据，可以配置很长的任务间隔吗？比如千万级的数据，是否可以实现秒级同步？

a. 暂时不支持, 目前支持的最小的任务间隔是 5 分钟同步一次。

q. 配置 maxcompute 数据同步时，在脚本开发中，是否可以设置函数？

a. 目前不可以。

q. maxcompute 数据同步到 sql sever 时，是否可以留下原来的数据，没有清除脏数据？

a. 需要在配置数据同步任务时，配置 “导入前准备语句”。

q. rds 的 mysql 数据库数据同步到 maxcompute，源库中的 varbinary 字段在做数据同步时如何转化为 string 类型？

a. rds _mysql 的 varbinary 类型不能直接同步到 maxcompute 中转化为 string 类型，但可以先将 varbinary 转化成 string 类型后再同步到 maxcompute。

大数据开发套件—数据集成常见问题

继续阅读

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

HDFS命令行工具

【51CTO学院三周年】自学路上的伴侣

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

浅谈企业活动中进行数据分析的重要性

Ambari介绍和架构原理

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark