明代著名的心学集大成者王阳明先生在《传习录》中有云:
道无精粗,人之所见有精粗。如这一间房,人初进来,只见一个大规模如此。处久,便柱壁之类,一一看得明白。再久,如柱上有些文藻,细细都看出来。然只是一间房。
是的,知识理论哪有什么精粗之分,只是人的认识程度不同而已。笔者在初创公司摸爬滚打数年,接触了各式各样的Java服务端架构,见得多了自然也就认识深了,就能分辨出各种方案的优劣了。这里,笔者总结了一些初创公司存在的Java服务端问题,并尝试性地给出了一些不成熟的解决方案。
随着互联网的发展,计算机系统早就从单机独立工作过渡到多机器协同工作。计算机以集群的方式存在,按照分布式理论构建出庞大复杂的应用服务,早已深入人心并得到广泛地应用。但是,仍然有不少创业公司的软件系统停留在"单机版"。
这里,用并发性比较高的抢单功能为例说明:
// 抢取订单函数 public synchronized void grabOrder(Long orderId, Long userId) { // 获取订单信息 OrderDO order = orderDAO.get(orderId); if (Objects.isNull(order)) { throw new BizRuntimeException(String.format("订单(%s)不存在", orderId)); } // 检查订单状态 if (!Objects.equals(order.getStatus, OrderStatus.WAITING_TO_GRAB.getValue())) { throw new BizRuntimeException(String.format("订单(%s)已被抢", orderId)); } // 设置订单被抢 orderDAO.setGrabed(orderId, userId); }
以上代码,在一台服务器上运行没有任何问题。进入函数grabOrder(抢取订单)时,利用synchronized关键字把整个函数锁定,要么进入函数前订单未被人抢取从而抢取订单成功,要么进入函数前订单已被抢取导致抢取订单失败,绝对不会出现进入函数前订单未被抢取而进入函数后订单又被抢取的情况。
但是,如果上面的代码在两台服务器上同时运行,由于Java的synchronized关键字只在一个虚拟机内生效,所以就会导致两个人能够同时抢取一个订单,但会以最后一个写入数据库的数据为准。所以,大多数的单机版系统,是无法作为分布式系统运行的。
添加分布式锁,进行代码优化:
// 抢取订单函数 public void grabOrder(Long orderId, Long userId) { Long lockId = orderDistributedLock.lock(orderId); try { grabOrderWithoutLock(orderId, userId); } finally { orderDistributedLock.unlock(orderId, lockId); } } // 不带锁的抢取订单函数 private void grabOrderWithoutLock(Long orderId, Long userId) { // 获取订单信息 OrderDO order = orderDAO.get(orderId); if (Objects.isNull(order)) { throw new BizRuntimeException(String.format("订单(%s)不存在", orderId)); } // 检查订单状态 if (!Objects.equals(order.getStatus, OrderStatus.WAITING_TO_GRAB.getValue())) { throw new BizRuntimeException(String.format("订单(%s)已被抢", orderId)); } // 设置订单被抢 orderDAO.setGrabed(orderId, userId); }
优化后的代码,在调用函数grabOrderWithoutLock(不带锁的抢取订单)前后,利用分布式锁orderDistributedLock(订单分布式锁)进行加锁和释放锁,跟单机版的synchronized关键字加锁效果基本一样。
分布式系统(Distributed System)是支持分布式处理的软件系统,是由通信网络互联的多处理机体系结构上执行任务的系统,包括分布式操作系统、分布式程序设计语言及其编译系统、分布式文件系统分布式数据库系统等。
一台服务器的崩溃,不会影响其它服务器,其它服务器仍能提供服务。
如果系统服务能力不足,可以水平扩展更多服务器。
可以很容易的安装、实施、扩容和升级系统。
拥有多台服务器的计算能力,比单台服务器处理速度更快。
分布式系统对服务器硬件要求很低,可以选用廉价服务器搭建分布式集群,从而得到更好的性价比。
由于系统分布在多台服务器上,故障排查和问题诊断难度较高。
分布式系统解决方案的软件支持较少。
需要多台服务器搭建分布式系统。
曾经有不少的朋友咨询我:"找外包做移动应用,需要注意哪些事项?"
首先,确定是否需要用分布式系统。软件预算有多少?预计用户量有多少?预计访问量有多少?是否只是业务前期试水版?单台服务器能否解决?是否接收短时间宕机?……如果综合考虑,单机版系统就可以解决的,那就不要采用分布式系统了。因为单机版系统和分布式系统的差别很大,相应的软件研发成本的差别也很大。
其次,确定是否真正的分布式系统。分布式系统最大的特点,就是当系统服务能力不足时,能够通过 水平扩展 的方式,通过增加服务器来增加服务能力。然而,单机版系统是不支持水平扩展的,强行扩展就会引起一系列数据问题。由于单机版系统和分布式系统的研发成本差别较大,市面上的外包团队大多用单机版系统代替分布式系统交付。那么,如何确定你的系统是真正意义上的分布式系统呢?从软件上来说,是否采用了 分布式软件解决方案 ;从硬件上来说,是否采用了 分布式硬件部署方案 。
作为一个合格的分布式系统,需要根据实际需求采用相应的分布式软件解决方案。
分布式锁是单机锁的一种扩展,主要是为了锁住分布式系统中的物理块或逻辑块,用以此保证不同服务之间的逻辑和数据的一致性。
目前,主流的分布式锁实现方式有3种:
分布式消息中间件是支持在分布式系统中发送和接受消息的软件基础设施。常见的分布式消息中间件有ActiveMQ、RabbitMQ、Kafka、MetaQ等。
MetaQ(全称Metamorphosis)是一个高性能、高可用、可扩展的分布式消息中间件,思路起源于LinkedIn的Kafka,但并不是Kafka的一个拷贝。MetaQ具有消息存储顺序写、吞吐量大和支持本地和XA事务等特性,适用于大吞吐量、顺序消息、广播和日志数据传输等场景。
针对大数据量的数据库,一般会采用"分片分组"策略:
分片(shard):主要解决扩展性问题,属于水平拆分。引入分片,就引入了数据路由和分区键的概念。其中, 分表 解决的是数据量过大的问题, 分库 解决的是数据库性能瓶颈的问题。
分组(group):主要解决可用性问题,通过 主从复制 的方式实现,并提供 读写分离 策略用以提高数据库性能。
分布式计算( Distributed computing )是一种"把需要进行大量计算的工程数据分割成小块,由多台计算机分别计算;在上传运算结果后,将结果统一合并得出数据结论"的科学。
当前的高性能服务器在处理海量数据时,其计算能力、内存容量等指标都远远无法达到要求。在大数据时代,工程师采用廉价的服务器组成分布式服务集群,以集群协作的方式完成海量数据的处理,从而解决单台服务器在计算与存储上的瓶颈。Hadoop、Storm以及Spark是常用的分布式计算中间件,Hadoop是对非实时数据做批量处理的中间件,Storm和Spark是对实时数据做流式处理的中间件。
除此之外,还有更多的分布式软件解决方案,这里就不再一一介绍了。
介绍完服务端的分布式软件解决方案,就不得不介绍一下服务端的分布式硬件部署方案。这里,只画出了服务端常见的接口服务器、MySQL数据库、Redis缓存,而忽略了其它的云存储服务、消息队列服务、日志系统服务……
只有1台接口服务器、1个MySQL数据库、1个可选Redis缓存,可能都部署在同一台服务器上。
适用于演示环境、测试环境以及不怕宕机且日PV在5万以内的小型商业应用。
通过SLB/Nginx组成一个负载均衡的接口服务器集群,MySQL数据库和Redis缓存采用了一主一备(或多备)的部署方式。
适用于日PV在500万以内的中小型商业应用。
通过SLB/Nginx组成一个负载均衡的接口服务器集群,利用分片分组策略组成一个MySQL数据库集群和Redis缓存集群。
适用于日PV在500万以上的大型商业应用。
多线程最主要目的就是"最大限度地利用CPU资源",可以把串行过程变成并行过程,从而提高了程序的执行效率。
假设在用户登录时,如果是新用户,需要创建用户信息,并发放新用户优惠券。例子代码如下:
// 登录函数(示意写法) public UserVO login(String phoneNumber, String verifyCode) { // 检查验证码 if (!checkVerifyCode(phoneNumber, verifyCode)) { throw new ExampleException("验证码错误"); } // 检查用户存在 UserDO user = userDAO.getByPhoneNumber(phoneNumber); if (Objects.nonNull(user)) { return transUser(user); } // 创建新用户 return createNewUser(user); } // 创建新用户函数 private UserVO createNewUser(String phoneNumber) { // 创建新用户 UserDO user = new UserDO(); ... userDAO.insert(user); // 绑定优惠券 couponService.bindCoupon(user.getId(), CouponType.NEW_USER); // 返回新用户 return transUser(user); }
其中,绑定优惠券(bindCoupon)是给用户绑定新用户优惠券,然后再给用户发送推送通知。如果随着优惠券数量越来越多,该函数也会变得越来越慢,执行时间甚至超过1秒,并且没有什么优化空间。现在,登录(login)函数就成了名副其实的慢接口,需要进行接口优化。
通过分析发现,绑定优惠券(bindCoupon)函数可以异步执行。首先想到的是采用多线程解决该问题,代码如下:
// 创建新用户函数 private UserVO createNewUser(String phoneNumber) { // 创建新用户 UserDO user = new UserDO(); ... userDAO.insert(user); // 绑定优惠券 executorService.execute(()->couponService.bindCoupon(user.getId(), CouponType.NEW_USER)); // 返回新用户 return transUser(user); }
现在,在新线程中执行绑定优惠券(bindCoupon)函数,使用户登录(login)函数性能得到很大的提升。但是,如果在新线程执行绑定优惠券函数过程中,系统发生重启或崩溃导致线程执行失败,用户将永远获取不到新用户优惠券。除非提供用户手动领取优惠券页面,否则就需要程序员后台手工绑定优惠券。所以,用采用多线程优化慢接口,并不是一个完善的解决方案。
如果要保证绑定优惠券函数执行失败后能够重启执行,可以采用数据库表、Redis队列、消息队列的等多种解决方案。由于篇幅优先,这里只介绍采用MetaQ消息队列解决方案,并省略了MetaQ相关配置仅给出了核心代码。
// 创建新用户函数 private UserVO createNewUser(String phoneNumber) { // 创建新用户 UserDO user = new UserDO(); ... userDAO.insert(user); // 发送优惠券消息 Long userId = user.getId(); CouponMessageDataVO data = new CouponMessageDataVO(); data.setUserId(userId); data.setCouponType(CouponType.NEW_USER); Message message = new Message(TOPIC, TAG, userId, JSON.toJSONBytes(data)); SendResult result = metaqTemplate.sendMessage(message); if (!Objects.equals(result, SendStatus.SEND_OK)) { log.error("发送用户({})绑定优惠券消息失败:{}", userId, JSON.toJSONString(result)); } // 返回新用户 return transUser(user); }
注意:可能出现发生消息不成功,但是这种概率相对较低。
// 优惠券服务类 @Slf4j @Service public class CouponService extends DefaultMessageListener<String> { // 消息处理函数 @Override @Transactional(rollbackFor = Exception.class) public void onReceiveMessages(MetaqMessage<String> message) { // 获取消息体 String body = message.getBody(); if (StringUtils.isBlank(body)) { log.warn("获取消息({})体为空", message.getId()); return; } // 解析消息数据 CouponMessageDataVO data = JSON.parseObject(body, CouponMessageDataVO.class); if (Objects.isNull(data)) { log.warn("解析消息({})体为空", message.getId()); return; } // 绑定优惠券 bindCoupon(data.getUserId(), data.getCouponType()); } }
采集MetaQ消息队列优化慢接口解决方案的优点:
这是一个简易的采购流程,由库管系统发起采购,采购员开始采购,采购员完成采购,同时回流采集订单到库管系统。
其中,完成采购动作的核心代码如下:
/** 完成采购动作函数(此处省去获取采购单/验证状态/锁定采购单等逻辑) */ public void finishPurchase(PurchaseOrder order) { // 完成相关处理 ...... // 回流采购单(调用HTTP接口) backflowPurchaseOrder(order); // 设置完成状态 purchaseOrderDAO.setStatus(order.getId(), PurchaseOrderStatus.FINISHED.getValue()); }
由于函数backflowPurchaseOrder(回流采购单)调用了HTTP接口,可能引起以下问题:
通过需求分析,把"采购员完成采购并回流采集订单"动作拆分为"采购员完成采购"和"回流采集订单"两个独立的动作,把"采购完成"拆分为"采购完成"和"回流完成"两个独立的状态,更方便采购流程的管理和实现。
拆分采购流程的动作和状态后,核心代码如下:
/** 完成采购动作函数(此处省去获取采购单/验证状态/锁定采购单等逻辑) */ public void finishPurchase(PurchaseOrder order) { // 完成相关处理 ...... // 设置完成状态 purchaseOrderDAO.setStatus(order.getId(), PurchaseOrderStatus.FINISHED.getValue()); } /** 执行回流动作函数(此处省去获取采购单/验证状态/锁定采购单等逻辑) */ public void executeBackflow(PurchaseOrder order) { // 回流采购单(调用HTTP接口) backflowPurchaseOrder(order); // 设置回流状态 purchaseOrderDAO.setStatus(order.getId(), PurchaseOrderStatus.BACKFLOWED.getValue()); }
其中,函数executeBackflow(执行回流)由定时作业触发执行。如果回流采购单失败,采购单状态并不会修改为"已回流";等下次定时作业执行时,将会继续执行回流动作;直到回流采购单成功为止。
有限状态机(Finite-state machine,FSM),又称有限状态自动机,简称状态机,是表示有限个状态以及在这些状态之间的转移和动作等行为的一个数学模型。
状态机可归纳为4个要素:现态、条件、动作、次态。
现态:指当前流程所处的状态,包括起始、中间、终结状态。
条件:也可称为事件;当一个条件被满足时,将会触发一个动作并执行一次状态的迁移。
动作:当条件满足后要执行的动作。动作执行完毕后,可以迁移到新的状态,也可以仍旧保持原状态。
次态:当条件满足后要迁往的状态。“次态”是相对于“现态”而言的,“次态”一旦被激活,就转变成新的“现态”了。
状态表示流程中的持久状态,流程图上的每一个圈代表一个状态。
初始状态:流程开始时的某一状态;
中间状态:流程中间过程的某一状态;
终结状态:流程完成时的某一状态。
动作的三要素:角色、现态、次态,流程图上的每一条线代表一个动作。
角色:谁发起的这个操作,可以是用户、定时任务等;
现态:触发动作时当前的状态,是执行动作的前提条件;
次态:完成动作后达到的状态,是执行动作的最终目标。
在一些项目中,系统间交互不通过接口调用和消息队列,而是通过数据库直接访问。问其原因,回答道:"项目工期太紧张,直接访问数据库,简单又快捷"。
还是以上面的采购流程为例——采购订单由库管系统发起,由采购系统负责采购,采购完成后通知库管系统,库管系统进入入库操作。采购系统采购完成后,通知库管系统数据库的代码如下:
/** 执行回流动作函数(此处省去获取采购单/验证状态/锁定采购单等逻辑) */ public void executeBackflow(PurchaseOrder order) { // 完成原始采购单 rawPurchaseOrderDAO.setStatus(order.getRawId(), RawPurchaseOrderStatus.FINISHED.getValue()); // 设置回流状态 purchaseOrderDAO.setStatus(order.getId(), PurchaseOrderStatus.BACKFLOWED.getValue()); }
其中,通过rawPurchaseOrderDAO(原始采购单DAO)直接访问库管系统的数据库表,并设置原始采购单状态为已完成。
一般情况下,直接通过数据访问的方式是不会有问题的。但是,一旦发生竞态,就会导致数据不同步。有人会说,可以考虑使用同一分布式锁解决该问题。是的,这种解决方案没有问题,只是又在系统间共享了分布式锁。
由于采购系统和库管系统都是内部系统,可以通过类似Dubbo的RPC接口进行交互。
/** 采购单服务接口 */ public interface PurchaseOrderService { /** 完成采购单函数 */ public void finishPurchaseOrder(Long orderId); } /** 采购单服务实现 */ @Service("purchaseOrderService") public class PurchaseOrderServiceImpl implements PurchaseOrderService { /** 完成采购单函数 */ @Override @Transactional(rollbackFor = Exception.class) public void finishPurchaseOrder(Long orderId) { // 相关处理 ... // 完成采购单 purchaseOrderService.finishPurchaseOrder(order.getRawId()); } }
其中,库管系统通过Dubbo把PurchaseOrderServiceImpl(采购单服务实现)以PurchaseOrderService(采购单服务接口)定义的接口服务暴露给采购系统。这里,省略了Dubbo开发服务接口相关配置。
/** 执行回流动作函数(此处省去获取采购单/验证状态/锁定采购单等逻辑) */ public void executeBackflow(PurchaseOrder order) { // 完成采购单 purchaseOrderService.finishPurchaseOrder(order.getRawId()); // 设置回流状态 purchaseOrderDAO.setStatus(order.getId(), PurchaseOrderStatus.BACKFLOWED.getValue()); }
其中,purchaseOrderService(采购单服务)为库管系统PurchaseOrderService(采购单服务)在采购系统中的Dubbo服务客户端存根,通过该服务调用库管系统的服务接口函数finishPurchaseOrder(完成采购单函数)。
这样,采购系统和库管系统自己的强关联,通过Dubbo就简单地实现了系统隔离和解耦。当然,除了采用Dubbo接口外,还可以采用HTTPS、HSF、WebService等同步接口调用方式,也可以采用MetaQ等异步消息通知方式。
同步接口调用是以一种阻塞式的接口调用机制。常见的交互协议有:
异步消息通知是一种通知式的信息交互机制。当系统发生某种事件时,会主动通知相应的系统。常见的交互协议有:
适合于简单的耗时较短的接口同步调用场景,比如Dubbo接口同步调用。
适合于简单的异步消息通知场景,比如MetaQ消息通知。
适合于复杂的耗时较长的接口同步调用场景,比如提交作业任务并定期查询任务结果。
适合于复杂的耗时较长的接口同步调用和异步回调相结合的场景,比如支付宝的订单支付。
适合于复杂的耗时较长的接口同步调用和异步消息通知相结合的场景,比如提交作业任务并等待完成消息通知。
适合于复杂的耗时较长的异步消息通知场景。
在数据查询时,由于未能对未来数据量做出正确的预估,很多情况下都没有考虑数据的分页查询。
以下是查询过期订单的代码:
/** 订单DAO接口 */ public interface OrderDAO { /** 查询过期订单函数 */ @Select("select * from t_order where status = 5 and gmt_create < date_sub(current_timestamp, interval 30 day)") public List<OrderDO> queryTimeout(); } /** 订单服务接口 */ public interface OrderService { /** 查询过期订单函数 */ public List<OrderVO> queryTimeout(); }
当过期订单数量很少时,以上代码不会有任何问题。但是,当过期订单数量达到几十万上千万时,以上代码就会出现以下问题:
所以,在数据查询时,特别是不能预估数据量的大小时,需要考虑数据的分页查询。
这里,主要介绍"设置最大数量"和"采用分页查询"两种方式。
"设置最大数量"是一种最简单的分页查询,相当于只返回第一页数据。例子代码如下:
/** 订单DAO接口 */ public interface OrderDAO { /** 查询过期订单函数 */ @Select("select * from t_order where status = 5 and gmt_create < date_sub(current_timestamp, interval 30 day) limit 0, #{maxCount}") public List<OrderDO> queryTimeout(@Param("maxCount") Integer maxCount); } /** 订单服务接口 */ public interface OrderService { /** 查询过期订单函数 */ public List<OrderVO> queryTimeout(Integer maxCount); }
适用于没有分页需求、但又担心数据过多导致内存溢出、数据量过大的查询。
"采用分页查询"是指定startIndex(开始序号)和pageSize(页面大小)进行数据查询,或者指定pageIndex(分页序号)和pageSize(页面大小)进行数据查询。例子代码如下:
/** 订单DAO接口 */ public interface OrderDAO { /** 统计过期订单函数 */ @Select("select count(*) from t_order where status = 5 and gmt_create < date_sub(current_timestamp, interval 30 day)") public Long countTimeout(); /** 查询过期订单函数 */ @Select("select * from t_order where status = 5 and gmt_create < date_sub(current_timestamp, interval 30 day) limit #{startIndex}, #{pageSize}") public List<OrderDO> queryTimeout(@Param("startIndex") Long startIndex, @Param("pageSize") Integer pageSize); } /** 订单服务接口 */ public interface OrderService { /** 查询过期订单函数 */ public PageData<OrderVO> queryTimeout(Long startIndex, Integer pageSize); }
适用于真正的分页查询,查询参数startIndex(开始序号)和pageSize(页面大小)可由调用方指定。
假设,我们需要在一个定时作业(每5分钟执行一次)中,针对已经超时的订单(status=5,创建时间超时30天)进行超时关闭(status=10)。实现代码如下:
/** 订单DAO接口 */ public interface OrderDAO { /** 查询过期订单函数 */ @Select("select * from t_order where status = 5 and gmt_create < date_sub(current_timestamp, interval 30 day) limit #{startIndex}, #{pageSize}") public List<OrderDO> queryTimeout(@Param("startIndex") Long startIndex, @Param("pageSize") Integer pageSize); /** 设置订单超时关闭 */ @Update("update t_order set status = 10 where id = #{orderId} and status = 5") public Long setTimeoutClosed(@Param("orderId") Long orderId) } /** 关闭过期订单作业类 */ public class CloseTimeoutOrderJob extends Job { /** 分页数量 */ private static final int PAGE_COUNT = 100; /** 分页大小 */ private static final int PAGE_SIZE = 1000; /** 作业执行函数 */ @Override public void execute() { for (int i = 0; i < PAGE_COUNT; i++) { // 查询处理订单 List<OrderDO> orderList = orderDAO.queryTimeout(i * PAGE_COUNT, PAGE_SIZE); for (OrderDO order : orderList) { // 进行超时关闭 ...... orderDAO.setTimeoutClosed(order.getId()); } // 检查处理完毕 if(orderList.size() < PAGE_SIZE) { break; } } } }
粗看这段代码是没有问题的,尝试循环100次,每次取1000条过期订单,进行订单超时关闭操作,直到没有订单或达到100次为止。但是,如果结合订单状态一起看,就会发现从第二次查询开始,每次会忽略掉前startIndex(开始序号)条应该处理的过期订单。这就是分页查询存在的 隐藏问题 :
当满足查询条件的数据,在操作中不再满足查询条件时,会导致后续分页查询中前startIndex(开始序号)条满足条件的数据被跳过。
可以采用"设置最大数量"的方式解决,代码如下:
/** 订单DAO接口 */ public interface OrderDAO { /** 查询过期订单函数 */ @Select("select * from t_order where status = 5 and gmt_create < date_sub(current_timestamp, interval 30 day) limit 0, #{maxCount}") public List<OrderDO> queryTimeout(@Param("maxCount") Integer maxCount); /** 设置订单超时关闭 */ @Update("update t_order set status = 10 where id = #{orderId} and status = 5") public Long setTimeoutClosed(@Param("orderId") Long orderId) } /** 关闭过期订单作业(定时作业) */ public class CloseTimeoutOrderJob extends Job { /** 分页数量 */ private static final int PAGE_COUNT = 100; /** 分页大小 */ private static final int PAGE_SIZE = 1000; /** 作业执行函数 */ @Override public void execute() { for (int i = 0; i < PAGE_COUNT; i++) { // 查询处理订单 List<OrderDO> orderList = orderDAO.queryTimeout(PAGE_SIZE); for (OrderDO order : orderList) { // 进行超时关闭 ...... orderDAO.setTimeoutClosed(order.getId()); } // 检查处理完毕 if(orderList.size() < PAGE_SIZE) { break; } } } }
本文是《 那些年,我们见过的Java服务端“乱象” 》的姐妹篇,前文主要介绍的是 Java服务端规范 上的问题,而本文主要介绍的是 Java服务端方案 上的问题。
谨以此文献给当年"E代驾"下的"KK拼车"团队,怀念曾经一起奋斗过的兄弟们,怀念那段为代驾司机深夜返程保驾护航的岁月。深感遗憾的是,"KK拼车"刚刚崭露头角,还没来得及好好发展,就被公司断臂裁撤了。值得欣慰的是,"KK拼车"自在人心,据说现在已经成为了一个"民间组织"。
本文作者:中间件小哥
阅读原文
本文为云栖社区原创内容,未经允许不得转载。