微服务调用链日志追踪分析

一、技术原理

微服务架构是一个分布式架构，它按业务划分服务单元，一个分布式系统往往有很多个服务单元。由于服务单元数量众多，业务的复杂性，如果出现了错误和异常，很难去定位。主要体现在，一个请求可能需要调用很多个服务，而内部服务的调用复杂性，决定了问题难以定位。所以微服务架构中，必须实现分布式链路追踪，去跟进一个请求到底有哪些服务参与，参与的顺序又是怎样的，从而达到每个请求的步骤清晰可见，出了问题，很快定位。

举个例子，在微服务系统中，一个来自用户的请求，请求先达到前端A（如前端界面），然后通过远程调用，达到系统的中间件B、C（如负载均衡、网关等），最后达到后端服务D、E，后端经过一系列的业务逻辑计算最后将数据返回给用户。对于这样一个请求，经历了这么多个服务，怎么样将它的请求过程的数据记录下来呢？这就需要用到服务链路追踪。

Google开源的 Dapper链路追踪组件，并在2010年发表了论文《Dapper, a Large-Scale Distributed Systems Tracing Infrastructure》，这篇文章是业内实现链路追踪的标杆和理论基础，具有非常大的参考价值。

中文翻译参考：http://bigbully.github.io/Dapper-translation/

目前，链路追踪组件有Google的Dapper，Twitter 的Zipkin，以及阿里的Eagleeye （鹰眼）等，它们都是非常优秀的链路追踪开源组件。

微服务链路追踪系统实现时，需设置一些关键节点记录信息，链路追踪相关名词如下：

Span：基本工作单元，发送一个远程调度任务就会产生一个Span，Span是一个64位ID唯一标识的，Trace是用另一个64位ID唯一标识的，Span还有其他数据信息，比如摘要、时间戳事件、Span的ID、以及进度ID。

Trace：一系列Span组成的一个树状结构。请求一个微服务系统的API接口，这个API接口，需要调用多个微服务，调用每个微服务都会产生一个新的Span，所有由这个请求产生的Span组成了这个Trace。

Annotation：用来及时记录一个事件的，一些核心注解用来定义一个请求的开始和结束。这些注解包括以下：

cs - Client Sent -客户端发送一个请求，这个注解描述了这个Span的开始

sr - Server Received -服务端获得请求并准备开始处理它，如果将其sr减去cs时间戳便可得到网络传输的时间。

ss - Server Sent （服务端发送响应）–该注解表明请求处理的完成(当请求返回客户端)，如果ss的时间戳减去sr时间戳，就可以得到服务器请求的时间。

cr - Client Received （客户端接收响应）-此时Span的结束，如果cr的时间戳减去cs时间戳便可以得到整个请求所消耗的时间。

一个服务调用过程如下图所示：

二、技术实现

调用方每一次向系统服务发起请求时，会生成这一次调用产生的相关调用链日志，生成一个全局的traceId，生成不同节点的span信息。其中当首个服务生成全局编码后，放入到header中，基于http传递给下级服务(其他模式类似)。下级服务可通过设置Filter过滤器（其他方案也可以），接收链路日志编码，并记录调用的日志信息。在将全局编码继续传递给下级服务。最终本次业务调用完成后，记录调用日志并清空本次调用链产生的全局编码。简易流程如下图所示：

调用方请求服务A，进入服务A过滤器；

服务A过滤器判断请求的header中是否携带了TraceId,ParentSpanId,有则使用携带的，没有就自动生成。

过滤器前置部分记录初始请求的一些信息，如请求地址，参数，请求时间等；

过滤器转发请求进入到Service方法;

过滤器后置部分再次记录Service方法执行完成后的一些信息，如返回内容，结束时间；

过滤器前后分别记录了信息，组合生成调用链路日志；

请求完成后，清空本次产生的TraceId；

服务A调用链日志信息参考：

微服务调用链日志追踪分析

View Code

多个服务与单个服务对比，是在不同的微服务里面分别记录对应的Trace信息，Span信息。同一个调用请求，所有微服务记录的TraceId一致，父服务的SpanId为子服务的ParentSpanId。

举例两个服务间的调用流程如下：

调用方发起调用，请求服务A，进入服务A过滤器；

服务A过滤器判断请求的header中是否携带了TraceId,ParentSpanId,有则使用携带的，没有就自动生成；

服务A过滤器前置部分记录初始请求的一些信息，如请求地址，参数，请求时间等；

服务A过滤器转发请求进入到Service方法;

服务A的Service方法内部执行部分逻辑后，开始通过中间件调用服务B；

将服务A中已生成的TraceId,ParentSpanId信息，通过header设置参数（其他类似）的模式传递给服务B；

进入服务B过滤器，服务B过滤器获取header中传递过来的TraceId,ParentSpanId；

服务B过滤器前置部分记录初始请求的一些信息，如请求地址，参数，请求时间等

服务B过滤器转发请求进入到Service方法;

服务B过滤器后置部分再次记录Service方法执行完成后的一些信息，如返回内容，结束时间；

服务B过滤器前后分别记录了信息，组合生成调用链路日志；

服务B基于中间件返回调用的请求信息处理结果给服务A；

服务A清空本次接收到的TraceId等编码信息。

服务A过滤器后置部分再次记录Service方法执行完成后的一些信息，如返回内容，结束时间；

服务A过滤器前后分别记录了信息，组合生成调用链路日志；

服务A清空本次请求产生的TraceId。

中间件是否需要记录Span信息

上述举例并未记录服务的Service方法执行一段时间后，何时通过中间件发起调用其他服务的Span信息。现实业务中，服务调用经常存在这种情况，服务A中某一个方法，先调用了服务B，获取到服务B的返回结果后，后续还又调用了服务C，服务D。此刻若不记录中间件的Span信息，在分析部分调用链超时情况时，会难以定位分析。只能获取到接受方的接收时间，不知道某一个服务调用时具体的发起时间（如服务D最终接收请求时的时间与最初进入服务A记录的请求时间相差一分钟，但这并不能说服务A调用服务D的接口就耗时一分钟）。

因此，中间件模块记录Span信息也至关重要。比如一个http请求的中间件，可重写他的Client实现类，记录开始发起请求和请求完成（类似于Filter）这一段时间的Span信息。

为什么每次服务调用完成后，需要清空traceId?

多个请求同时发起时，如何保证调用链日志在不同线程中隔离，互不影响？

每一个请求过来时，产生一个独立的子线程，在这个子线程内部设置对应的traceId,可基于ThreadLocal存储调用链相关信息，达到子线程信息隔离的目的。

了解调用链信息基本原理后，自定义编码实现一套基于traceId的调用链追踪技术方案，需解决如下问题：

全局traceId的生成和清空；

traceId调用链路传递与追踪；

traceId基于Filter接收；

Span生成与管理；

调用链路日志存储；

三、技术细节分析

traceId:全局调用链日志id编码，在多个服务调用的一条调用链日志中，为同一个日志编码

spanId:spanId节点的唯一编码

requestId:本次请求生成的唯一id编码，在多个服务调用的一条调用链日志中，为不同的日志编码

每一次发起业务调用完成后，需清空本次产生的编码。同时，不同线程的调用链日志应互不影响。故调用链信息可基于MDC技术实现，查看MDC的实现原理，本质还是基于ThreadLocal实现。本例直接基于ThreadLocal实现，部分伪代码如下：

微服务调用链日志追踪分析

获取traceId:String traceId = LoggerUtil.traceId();

单次调用过程中存储traceId:ThreadHolderUtil.setValue(TRACD_ID, traceId );

整个调用完成后，清空整个变量：ThreadHolderUtil.clearValueMap();

调用链编码传递主要是一个请求涉及到多个微服务时，一般是从网关（或首个请求的微服务）生成调用链编码后，该编码在不同微服务中的流转过程。本文主要介绍Feign和线程池中traceId的链路传递

参考文档：基于TraceId链路追踪

Feign传递编码-重写RequestInterceptor

网上介绍方案大多是通过重写实现RequestInterceptor接口实现的。参考代码如下：

微服务调用链日志追踪分析

该方案是把调用链编码通过header传递给下级服务了，但并没有记录Feign处的Span信息。参考模型如下图所示：

Feign传递编码-重新实现内部调用的 Http Client

扩展方案是需要记录每一次调用Feign时，记录Feign处的Span信息。Feign最终可通过在http发起请求时，调整内部的Http Client扩展实现，达到记录Span信息的目的。（整体方案偏复杂，要考虑负载均衡时，池化请求等模式时，都可以记录信息）

Feign添加自定义注解

目的是为了记录Feign在执行方法前后的调用链信息，可采用加入注解，在Feign类上面标记，记录方法执行前后时的情况。调用链信息还是通过重写RequestInterceptor实现传递给下级服务。

采用Feign调用其他服务，记录Fegin的Span信息，可通过方案：（Feign传递编码重写RequestInterceptor， Feign请求添加注解，组合实现。）

编写一个注解，并记录调用方法前后的时间信息，参考伪代码：

微服务调用链日志追踪分析

线程池传递编码

主线程中记录的调用链信息通过线程池执行时，子线程会获取不到主线程的调用链信息（子线程获取traceId为null）。因此，需要在子线程执行时，主线程向子线程传递调用链相关编码信息。参考文档：

多线程相关知识：多线程-JUC线程池

Spring 回调方法装饰器：多线程调用如何传递上下文

JDK原生扩展Callable，Runnable:traceId跟踪请求全流程日志

其他方法：Transmittable ThreadLocal(TTL) 支持缓存线程池的 ThreadLocal

上游服务向下游服务发起调用请求时，下游服务接收到请求时，加入一个基础过滤器（设置过滤器order值小于其他业务的order值，保证优先执行），获取上游服务请求信息中的调用链信息，获取出来后，记录请求Trace日志信息，并通过ThreadLocal模式，记录调用链信息。参考实现部分伪代码如下：

微服务调用链日志追踪分析

通过技术原理分析，生成Span的场景为每一个微服务请求开始至请求完成时，记录一个Span节点信息。若服务执行过程中，通过中间件调用了其他微服务时，每一次中间件调用时，再记录一个Span节点信息（调用多少次，记录多少个）。

发起一次调用后，会生成Trace请求信息，Span节点信息，针对这些日志信息，可以通过写入到Log4g2日志中。或者写入到其他数据库等系统中做日志信息存储，便于后续分析问题。

举例一个场景：

发起请求，先调用服务A，服务A通过Feign调用一次服务B，整体记录日志参考如下：

服务A对应traceLog

生成全局traceId: 2bf002c7-c140-4304-9c42-98ec0e359e1a314225。

服务A调用起止时间：1612344583.027557~ 1612344589.716305。

微服务调用链日志追踪分析

服务A对应spanLog

服务A本身具备一个span节点信息。且服务A的spanId，为sub_spans的parentSpanId。因为服务A通过Feign调用了一次服务B，记录中间件的Span信息一次。（调用多少次，记录多少个孩子span节点。）

孩子节点的span信息，内部的开始请求时间，结束请求时间，小于上级节点的起止时间。

全局traceId: 2bf002c7-c140-4304-9c42-98ec0e359e1a314225。

sub_spans 节点下面，所有相关的子节点，他的parentId为上级span节点的spanId,值为e495b1e3-72e3-4dfc-92ad-8526c1c05e68901528。

微服务调用链日志追踪分析

服务B对应traceLog

服务B接收上级的传入的TraceId,全局编码：2bf002c7-c140-4304-9c42-98ec0e359e1a314225。

服务B调用起止时间：1612344586.914167~ 1612344587.162829.

服务A通过Feign发起的时间为: 1612344583090733，服务B接收到的请求时间1612344586914167，表明中间件到服务B中还是存在细微的时间差。

微服务调用链日志追踪分析

服务B对应spanLog

服务B接收上级的传入的TraceId,全局编码：2bf002c7-c140-4304-9c42-98ec0e359e1a314225.

服务B没有再次调用其他的服务了，故不存在下级sub_spans节点。

服务B节点信息中的parent_id,为服务A中的孩子节点spanId,值为：6a112df7-762d-4467-aab5-8d4ea8d30e34265554。

微服务调用链日志追踪分析

自定义一个调用链插件，便于根据项目需求，充分的定制化开发。

结合公司项目的需求，调整调用链方案，在调用链模块成熟后，可做为中间件模块，应用于公司的其他项目；

实现一个调用链插件，有利于了解整个调用链技术体系的技术关键点，技术细节。后续就算切换为其他的成熟的调用链产品，当使用中出现问题时，也能从原理层面分析问题。

自定义调用链插件在日志管理方面更灵活，便于后期业务日志分析，日志存储切换方案等可以做出快速调整。

随着Spring体系的升级，中间件的升级，自定义的调用链插件受到影响时，也需要升级。存在一定的维护成本。

在更加多元化的日志分析中，如权重管理，比例拦截日志等方面，自定义的插件都需要开发才能支持。

自定义插件的性能，技术实现方案与开发者掌握的技术密切相关。同开源的优秀调用链工具对比，肯定还是存在差异，需要开发者更新和替换。

参考完整实现代码：https://github.com/wuya11/TraceDemo

运行截图参考：

微服务调用链日志追踪分析

继续阅读

关于Gradle配置的小结

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method