转载

【每日一博】心跳包对状态机的影响

本文以 rabbitmq-c 使用的 AMQP 协议为例说明 heartbeat 对协议状态机的影响。而实际上该问题具有一定普适性。

背景:基于rabbitmq-c源码改造了基于libevent实现的版本,增加了部分功能(一些属性的支持),也省略了部分功能(原代码中的心跳处理)。

问题:在后续需要使用 AMQP 心跳协议进行保活时,发生了状态机遗漏和错乱的情况。

图例

【每日一博】心跳包对状态机的影响

没有考虑 heartbeat 情况下,rabbitmq Producer 的最简状态转换

【每日一博】心跳包对状态机的影响

rabbitmq Consumer 的最简状态转换

【每日一博】心跳包对状态机的影响

简单观察上面的状态切换是发现不了问题的,下给出结合 代码状态机实现 + 实际网络情况 的图示。

没有考虑 heartbeat 情况下,给出 rabbitmq  Producer

状态转换时 FSM 的稳态以及可能出现网络卡顿的地方。

【每日一博】心跳包对状态机的影响

rabbitmq  Consumer   状态转换时 FSM 的稳态以及可能出现网络卡顿的地方。

【每日一博】心跳包对状态机的影响

上面图中的 稳态 是指 FSM 实现中的某个稳定状态(一般来说,无限循环的状态机都至少应该有一个稳态);而 网络卡顿 是指由于网络原因或服务器原因导致的协议包延迟到达的现象。

事件驱动+FSM 的实现模型下,遇到网络卡顿时,可以对超时情况进行记录,并重新触发新一轮的状态处理。就上面的 consumer 而言,当处于 basic.deliver 状态下,在指定时间内没有收到对应协议帧时,只需要重新进入该状态再次等待接收该协议帧即可。

当添加了 heartbeat 处理后,状态机变化如下:

rabbitmq  Producer  状态转换时 FSM 的稳定态以及可能出现网络卡顿的地方。

【每日一博】心跳包对状态机的影响

rabbitmq  Consumer 状态转换时 FSM 的稳定态以及可能出现网络卡顿的地方。

【每日一博】心跳包对状态机的影响

可以看到,情况变的稍微复杂了点。这种情况下,需要程序能够处理

  • 针对 heartbeat 超时次数进行统计
  • 需要统一发送态下 heartbeat 超时时间和接收态下 heartbeat 超时时间(Producer中的情况),否者会出现判定错误
  • 需要在处理 heartbeat 协议帧前,正确记录当前的状态,以便后续重新恢复到该状态

另外值得说一句的是,FSM 中的稳态其实是和代码实现强相关的,就像上面图中 Producer 的稳态就实现在了 idle 中,而 Consumer 的稳态却安排在了 basic.deliver 。而会出现网络卡顿的点也需要仔细考量。

正文到此结束
Loading...