本文以 rabbitmq-c 使用的 AMQP 协议为例说明 heartbeat 对协议状态机的影响。而实际上该问题具有一定普适性。
背景:基于rabbitmq-c源码改造了基于libevent实现的版本,增加了部分功能(一些属性的支持),也省略了部分功能(原代码中的心跳处理)。
问题:在后续需要使用 AMQP 心跳协议进行保活时,发生了状态机遗漏和错乱的情况。
图例
没有考虑 heartbeat 情况下,rabbitmq Producer 的最简状态转换
rabbitmq Consumer 的最简状态转换
简单观察上面的状态切换是发现不了问题的,下给出结合 代码状态机实现 + 实际网络情况 的图示。
没有考虑 heartbeat 情况下,给出 rabbitmq Producer状态转换时 FSM 的稳态以及可能出现网络卡顿的地方。
rabbitmq Consumer 状态转换时 FSM 的稳态以及可能出现网络卡顿的地方。
上面图中的 稳态 是指 FSM 实现中的某个稳定状态(一般来说,无限循环的状态机都至少应该有一个稳态);而 网络卡顿 是指由于网络原因或服务器原因导致的协议包延迟到达的现象。
在 事件驱动+FSM 的实现模型下,遇到网络卡顿时,可以对超时情况进行记录,并重新触发新一轮的状态处理。就上面的 consumer 而言,当处于 basic.deliver 状态下,在指定时间内没有收到对应协议帧时,只需要重新进入该状态再次等待接收该协议帧即可。
当添加了 heartbeat 处理后,状态机变化如下:
rabbitmq Producer 状态转换时 FSM 的稳定态以及可能出现网络卡顿的地方。
rabbitmq Consumer 状态转换时 FSM 的稳定态以及可能出现网络卡顿的地方。
可以看到,情况变的稍微复杂了点。这种情况下,需要程序能够处理
另外值得说一句的是,FSM 中的稳态其实是和代码实现强相关的,就像上面图中 Producer 的稳态就实现在了 idle 中,而 Consumer 的稳态却安排在了 basic.deliver 。而会出现网络卡顿的点也需要仔细考量。