转载

借助混沌工程工具 ChaosBlade 构建高可用的分布式系统原荐

在分布式架构环境下，服务间的依赖日益复杂，可能没有人能说清单个故障对整个系统的影响，构建一个高可用的分布式系统面临着很大挑战。在可控范围或环境下，使用 ChaosBlade 工具，对系统注入各种故障，持续提升分布式系统的容错和弹性能力，以构建高可用的分布式系统。

ChaosBlade 是什么？

ChaosBlade 是一款遵循混沌工程实验原理，建立在阿里巴巴近十年故障测试和演练实践基础上，并结合了集团各业务的最佳创意和实践，提供丰富故障场景实现，帮助分布式系统提升容错性和可恢复性的混沌工程工具。点击这里，了解详情。

ChaosBlade 无需编译，下载解压即可使用，支持基础资源、Java 应用、容器服务类的混沌实验，特点是操作简洁、无侵入、扩展性强。

ChaosBlade@GitHub，点击进入

下面我们以微服务分布式系统举例，一步一步构建高可用的分布式系统。

构建高可用的分布式系统

ChaosBlade 的使用方式

ChaoBlade 通过 CLI 方式调用，比如我们模拟 A 服务调用 B 提供的 com.alibaba.demo.HelloService 服务下的 hello 服务延迟 3 秒，我们可以在 B 应用上注入延迟故障，仅需两步操作：

第一步：准备阶段。由于 Java 应用的故障注入是通过 Java Agent 机制实现，所以首先要先挂载 agent，执行的命令是 blade prepare jvm --process <PROCESS NAME OF B APPLICATION>

第二步：执行阶段，注入故障。执行命令是 blade create dubbo delay --time 3000 --service com.alibaba.demo.HelloService --methodname hello --provider ，即对 B 服务提供方提供的 com.alibaba.demo.HelloService#hello 服务注入 3 秒延迟。

ChaosBlade 使用简洁，如果想了解命令的如何使用，可在命令后面添加 -h 参数，比如 blade create dubbo delay -h 。更详细的 chaosblade 操作，可详见新手指南

分布式系统高可用原则

高可用的分布式系统一般需要满足以下原则：

失败重试
实例隔离
请求限流
服务降级
服务熔断
流量调度
开关&预案
监控告警
日志跟踪

混沌实验场景实践

我们以 A 调用 B，B 调用 C，A 同时也调用 D 举例，A1、A2 是 A 服务的多个实例，依次类推。

失败重试

实验场景：调用下游服务实例异常。

容错方案：会再次请求另外一个服务实例进行重试。

场景模拟：对 B1 注入异常故障，A 服务调用到 B1 时会出现调用失败。

预期方案：系统会将 A 服务的请求路由到 B2 进行重试。

blade 命令： blade c dubbo throwCustomException --exception <EXCEPTION CLASS> --service <SERVICE NAME> --provider

修复方案：添加失败检测和请求重试能力。

实例隔离

演练场景：多次调用下游一个服务实例超时。

容错方案：会隔离或者下线此服务实例，防止请求路由到此服务实例。

场景模拟：对 B1 注入延迟故障，A 服务调用到 B1 时，出现调用超时。

预期方案：系统会自动隔离或下线 B1 实例。

blade 命令： blade c dubbo delay --time <DELAY TIME> --service <SERVICE NAME> --provider

修复方案：添加服务质量检查，下线不可用的服务实例。

请求限流

演练场景：服务线程池满。

容错方案：会对入口流量进行限流，防止请求堆积，资源耗尽导致服务不可用。

场景模拟：对 A 注入线程池满故障。

预期方案：线程池满时，触发限流，新请求快速失败。

blade 命令： blade c dubbo threadpoolfull --consumer

修复方案：添加限流能力。

服务降级

演练场景：A 对 B 是强依赖，对 D 是弱依赖，A 调用 D 线程数多，争抢调用 B 服务的资源。

容错方案：对弱依赖 B 进行降级，减少资源分配。

场景模拟：对 A 注入调用 D 线程数满故障。

blade 命令： blade c dubbo threadpoolfull --service <D SERVICE NAME> --consumer

修复方案：梳理服务依赖，添加服务降级能力。

调用熔断

演练场景：下游服务不可用

容错方案：触发熔断，快速失败返回

场景模拟：对 B 服务所有的实例注入延迟超时故障。

blade 命令： blade c dubbo delay --time <DELAY TIME> --service <SERVICE NAME> --provider

修复方案：当下游服务不可用时，能立即熔断，快速失败。

流量调度

演练场景：上游高并发下，扩容下游服务，在服务实例初始化时，CPU 负载高，导致上游服务受影响

容错方案：当服务实例机器负载高时，自动切流到正常机器

场景模拟：对 B1 做 CPU 满载操作。

blade 命令： blade c cpu fullload

修复方案：添加系统、应用资源监控和流量调度能力。

系统预案

演练场景：杀掉服务实例。

容错方案：快速拉起或扩容

场景模拟：杀掉 B 大部分实例。

blade 命令： blade create process kill --process <PROCESS NAME>

修复方案：添加相关系统预案。

监控告警

注入任意故障，验证监控告警的有效性

日志跟踪

演练场景：修改应用中具体方法返回值。

容错方案：全链路调用日志记录。

场景模拟：修改 B 服务的一个业务方法的返回值。

blade 命令： blade c jvm return --classname <CLASS NAME> --methodname <METHOD NAME> --value <RETURN VALUE>

修复方案：添加全链路日志记录，便于排查和追溯问题。

总结

通过 ChaosBlade 工具能简洁有效的执行混沌实验，上文提到的请求限流、降级熔断功能可以使用 Sentinel 来解决。阿里云 AHAS 产品已经集成混沌工程平台和 Sentinel 功能。ChaosBlade 除了上述实验场景，还有更多的场景期待你来挖掘。

后续规划

ChaosBlade 后续会继续增强对 Java 生态的混沌实验，比如对 Redis、GRPC、RabbitMQ 等主流组件的支持。也会增加云原生设施的混沌实验，比如 Kubernetes、Service Mesh 等。

参与贡献

欢迎加入 ChaosBlade 社区，参与混沌工程生态建设，贡献不局限于代码，也可以是想法、文档、和社区答疑、讨论。

作者：中间件小哥

原文链接

本文为云栖社区原创内容，未经允许不得转载。

原文 https://my.oschina.net/yunqi/blog/3049315

正文到此结束

所属分类： Java 编程技术

本文标签： java 产品 App provider Service rabbitmq 云线程代码 dubbo 线程池高可用并发 GitHub 总结下载高并发微服务 https IDE 参数 http 分布式限流 git redis 阿里云 src id Agent 质量 UI value lib 十年 JVM 测试阿里巴巴实例 Uber MQ Sentinel 编译 cat Kubernetes consumer IO 分布式系统
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

借助混沌工程工具 ChaosBlade 构建高可用的分布式系统原荐

ChaosBlade 是什么？

构建高可用的分布式系统

ChaosBlade 的使用方式

分布式系统高可用原则

混沌实验场景实践

失败重试

实例隔离

请求限流

服务降级

调用熔断

流量调度

系统预案

监控告警

日志跟踪

总结

后续规划

参与贡献

热门推荐

相关文章

说给你听

本文目录

随机标签

书籍教程

近期评论

网站信息

其他链接

关于本站

问题交流

借助混沌工程工具 ChaosBlade 构建高可用的分布式系统 原 荐

ChaosBlade 是什么？

构建高可用的分布式系统

ChaosBlade 的使用方式

分布式系统高可用原则

混沌实验场景实践

失败重试

实例隔离

请求限流

服务降级

调用熔断

流量调度

系统预案

监控告警

日志跟踪

总结

后续规划

参与贡献

热门推荐

相关文章

说给你听

本文目录

随机标签

书籍教程

近期评论

网站信息

其他链接

关于本站

问题交流

借助混沌工程工具 ChaosBlade 构建高可用的分布式系统原荐