Spark解析binlog日志，写入MySQL

2023-04-27 05:48:43

1. 背景

由于公司业务线的不断拓展，创建了很多MySQL实例，为了安全起见每个实例之间不能直接互相访问，但是业务部门又需要整合各个业务线的数据进行分析、制定风控策略等。因此需要将不同业务线数据进行归集。

当然一下方案不是最优的，MySQL实例之间数据互通，有很多成熟且稳定的方式，因此我觉得我们选择了一种不是非常理想的方式！

2. 处理流程

MySQL ——> 产生binlog日志 ——> Maxwell解析成json格式 ——> 发送到Kafka ——> 通过Spark消费 ——> 写入MySQL

3. 处理思路

由于需要同步的表非常多，因此通过JavaBean反射的方式去解析Maxwell发送到kafka的数据工作量较繁重。并且对于不断变更表结构的业务来讲，也不是一个非常合理的方式。

Maxwell针对不同的MySQL操作方式会产生不同结构的Json数据：

mysql> insert into `test`.`maxwell` set id = 1, daemon = 'Stanislaw Lem';
  maxwell: {
    "database": "test",
    "table": "maxwell",
    "type": "insert",
    "ts": 1449786310,
    "xid": 940752,
    "commit": true,
    "data": { "id":1, "daemon": "Stanislaw Lem" }
  }

mysql> update test.maxwell set daemon = 'firebus!  firebus!' where id = 1;
  maxwell: {
    "database": "test",
    "table": "maxwell",
    "type": "update",
    "ts": 1449786341,
    "xid": 940786,
    "commit": true,
    "data": {"id":1, "daemon": "Firebus!  Firebus!"},
    "old":  {"daemon": "Stanislaw Lem"}
  }

经过分析我们可以解析出相应的SQL语句，然后通过JDBC的方式操作MySQL，实现跨库的数据同步需求。

4、遇到问题

如果一条数据中存在为NULL值的字段，Maxwell不会将该字段通过Json的方式发送过来，因此Json中不完全包含一条完整的数据，该字段在操作MySQL时只能将其插入对应字段的默认值，但不影响数据的准确性。

当一条数据中某个字段由NULL变更为非NULL值时，我们试图通过解析old串中被更新的字段时是徒劳的，因为此时old串为空，此时会报：java.lang.ArrayIndexOutOfBoundsException: -1（数组越界异常）。

当一条数据中某个字段由非NULL变更为NULL值时，在data串中你也是无法获取到该字段的，试图解析会出现：java.lang.NullPointerException（空指针异常）。

解决上述两种问题的方式是对update语句分情况解析。如果被变更状态的字段都出现在了data串中，那么可以将data串作为最新的数据更新到MySQL中。否则通过比较data和old串的不同，还原相应字段的最新值，从而更新MySQL，最终问题得到解决。

Spark解析binlog日志，写入MySQL

1. 背景

2. 处理流程

3. 处理思路

4、遇到问题

继续阅读

域名做个邮箱

光学涡旋在等离子体中激光诱导荧光测速的应用前言：光学涡旋光束中运动的原子除了通常的纵向多普勒效应外，还会受到方位多普勒效

太阳风湍流中镜像约束对质子温度各向异性的流体模拟前言：对太阳风中由膨胀、湍流和场粒子相互作用引起的温度各向异性产生了特别

再见大学

SparkStreaming整合Redis

无侵入式的mysql的binlog采集——maxwell采集binlog放到kafka中——成功！

Maxwell监听MySQL binlog日志推送消息至Kafkamysql开启binlogKafka的配置启动：Maxwell配置安装：测试：

单模NH3分子激光器中混沌运动特性分析混沌是指确定性系统内的随机性,是大自然中普遍存在的一种现象｡1963年,Loren

StellaMaxwellAtVictoria’sSecretAfterParty2016💫#时事热点头条说##挑战30

Android: Color State List Resource (颜色申明列表资源)

初学MySQL—MySQL是如何保证数据不丢失的？binlog的写入机制redo log的写入机制

基于Java的Socket编程的简单学习

mysql binlog 常用命令及问题整理

Spark的笔记

职业规划Android开发职业规划

对自己发展的一些思考