转载

微服务实战（五）：微服务化之缓存的设计

本文章为《互联网高并发微服务化架构实践》系列文章的第五篇，前四篇为：

《为什么说先要做好持续集成，才能谈微服务？》
《微服务的接入层设计与动静资源隔离》
《以MySQL为例，从原理上理解那些所谓的数据库军规》
《微服务化之无状态化与容器化》

在高并发场景下，需要通过缓存来减少数据库的压力，使得大量的访问进来能够命中缓存，只有少量的需要到数据库层。由于缓存基于内存，可支持的并发量远远大于基于硬盘的数据库。所以对于高并发设计，缓存的设计时必不可少的一环。

一、为什么要使用缓存

为什么要使用缓存呢？源于人类的一个梦想，就是多快好省的建设社会主义。

多快好省？很多客户都这么要求，但是作为具体做技术的你，当然知道，好就不能快，多就没法省。

可是没办法，客户都这样要求：

这个能不能便宜一点，你咋这么贵呀，你看人家都很便宜的。（您好，这种打折的房间比较靠里，是不能面向大海的）
你们的性能怎么这么差啊，用你这个系统跑的这么慢，你看人家广告中说速度能达到多少多少。（您好，你如果买一个顶配的，我们也是有这种性能的）
你们服务不行啊，你就不能彬彬有礼，穿着整齐，送点水果瓜子啥的？（您好，我们兰州拉面馆没有这项服务，可以去对面的俏江南看一下）
这么贵的菜，一盘就这么一点点，都吃不饱，就不能上一大盘么。（您好，对面的兰州拉面10块钱一大碗）

怎么办呢？劳动人民还是很有智慧的，就是聚焦核心需求，让最最核心的部分享用好和快，而非核心的部门就多和省就可以了。

你可以大部分时间住在公司旁边的出租屋里面，但是出去度假的一个星期，选一个面朝大海，春暖花开的五星级酒店。

你可以大部分时间都挤地铁，挤公交，跋涉2个小时从北五环到南五环，但是有急事的时候，你可以打车，想旅游的时候，可以租车。

你可以大部分时间都吃普通的餐馆，而朋友来了，就去高级饭店里面搓一顿。

在计算机世界也是这样样子的，如图所示。

微服务实战（五）：微服务化之缓存的设计

越是快的设备，存储量越小，越贵，而越是慢的设备，存储量越大，越便宜。

对于一家电商来讲，我们既希望存储越来越多的数据，因为数据将来就是资产，就是财富，只有有了数据，我们才知道用户需要什么，同时又希望当我想访问这些数据的时候，能够快速的得到，双十一拼的就是速度和用户体验，要让用户有流畅的感觉。

所以我们要讲大量的数据都保存下来，放在便宜的存储里面，同时将经常访问的，放在贵的，小的存储里面，当然贵的快的往往比较资源有限，因而不能长时间被某些数据长期霸占，所以要大家轮着用，所以叫缓存，也就是暂时存着。

二、都有哪些类型的缓存

当一个应用刚开始的时候，架构比较简单，往往就是一个Tomcat，后面跟着一个数据库。

微服务实战（五）：微服务化之缓存的设计

简单的应用，并发量不大的时候，当然没有问题。

然而数据库相当于我们应用的中军大帐，是我们整个架构中最最关键的一部分，也是最不能挂，也最不能会被攻破的一部分，因而所有对数据库的访问都需要一道屏障来进行保护，常用的就是缓存。

我们以Tomcat为分界线，之外我们称为接入层，接入层当然应该有缓存，还有CDN，这个在这篇文章中有详细的描述：《微服务的接入层设计与动静资源隔离》。

Tomcat之后，我们称为应用层，应用层也应该有缓存，这是我们这一节讨论的重点。

最简单的方式就是Tomcat里面有一层缓存，常称为本地缓存LocalCache。

这类的缓存常见的有Ehcache和Guava Cache，由于这类缓存在Tomcat本地，因而访问速度是非常快的。

但是本地缓存有个比较大的缺点，就是缓存是放在JVM里面的，会面临Full GC的问题，一旦出现了FullGC，就会对应用的性能和相应时间产生影响，当然也可以尝试jemalloc的分配方式。

还有一种方式，就是在Tomcat和Mysql中间加了一层Cache，我们常称为分布式缓存。

微服务实战（五）：微服务化之缓存的设计

分布式缓存常见的有Memcached和Redis，两者各有优缺点。

Memcached适合做简单的key-value存储，内存使用率比较高，而且由于是多核处理，对于比较大的数据，性能较好。

但是缺点也比较明显，Memcached严格来讲没有集群机制，横向扩展完全靠客户端来实现。另外Memcached无法持久化，一旦挂了数据就都丢失了，如果想实现高可用，也是需要客户端进行双写才可以。

所以可以看出Memcached真的是设计出来，简简单单为了做一个缓存的。

微服务实战（五）：微服务化之缓存的设计

Redis的数据结构就丰富的多了，单线程的处理所有的请求，对于比较大的数据，性能稍微差一点。

微服务实战（五）：微服务化之缓存的设计

Redis提供持久化的功能，包括RDB的全量持久化，或者AOF的增量持久化，从而使得Redis挂了，数据是有机会恢复的。

Redis提供成熟的主备同步，故障切换的功能，从而保证了高可用性。

所以很多地方管Redis称为内存数据库，因为他的一些特性已经有了数据库的影子。

这也是很多人愿意用Redis的原因，集合了缓存和数据库的优势，但是往往会滥用这些优势，从而忽略了架构层面的设计，使得Redis集群有很大的风险。

很多情况下，会将Redis当做数据库使用，开启持久化和主备同步机制，以为就可以高枕无忧了。

微服务实战（五）：微服务化之缓存的设计

然而Redis的持久化机制，全量持久化则往往需要额外较大的内存，而在高并发场景下，内存本来就很紧张，如果造成swap，就会影响性能。增量持久化也涉及到写磁盘和fsync，也是会拖慢处理的速度，在平时还好，如果高并发场景下，仍然会影响吞吐量。

所以在架构设计角度，缓存就是缓存，要意识到数据会随时丢失的，要意识到缓存的存着的目的是拦截到数据库的请求。如果为了保证缓存的数据不丢失，从而影响了缓存的吞吐量，甚至稳定性，让缓存响应不过来，甚至挂掉，所有的请求击穿到数据库，就是更加严重的事情了。

如果非常需要进行持久化，可以考虑使用levelDB此类的，对于随机写入性能较好的key-value持久化存储，这样只有部分的确需要持久化的数据，才进行持久化，而非无论什么数据，通通往Redis里面扔，同时统一开启了持久化。

三、基于缓存的架构设计要点

所以基于缓存的设计：

1、多层次

这样某一层的缓存挂了，还有另一层可以撑着，等待缓存的修复，例如分布式缓存因为某种原因挂了，因为持久化的原因，同步机制的原因，内存过大的原因等，修复需要一段时间，在这段时间内，至少本地缓存可以抗一阵，不至于一下子就击穿数据库。而且对于特别特别热的数据，热到导致集中式的缓存处理不过来，网卡也被打满的情况，由于本地缓存不需要远程调用，也是分布在应用层的，可以缓解这种问题。

2、分场景

到底要解决什么问题，可以选择不同的缓存。是要存储大的无格式的数据，还是要存储小的有格式的数据，还是要存储一定需要持久化的数据。具体的场景下一节详细谈。

3、要分片

使得每一个缓存实例都不大，但是实例数目比较多，这样一方面可以实现负载均衡，防止单个实例称为瓶颈或者热点，另一方面如果一个实例挂了，影响面会小很多，高可用性大大增强。分片的机制可以在客户端实现，可以使用中间件实现，也可以使用Redis的Cluster的方式，分片的算法往往都是哈希取模，或者一致性哈希。

四、缓存的使用场景

当你的应用扛不住，知道要使用缓存了，应该怎么做呢？

场景1：和数据库中的数据结构保持一致，原样缓存

这种场景是最常见的场景，也是很多架构使用缓存的适合，最先涉及到的场景。

基本就是数据库里面啥样，我缓存也啥样，数据库里面有商品信息，缓存里面也放商品信息，唯一不同的是，数据库里面是全量的商品信息，缓存里面是最热的商品信息。

每当应用要查询商品信息的时候，先查缓存，缓存没有就查数据库，查出来的结果放入缓存，从而下次就查到了。

这个是缓存最最经典的更新流程。这种方式简单，直观，很多缓存的库都默认支持这种方式。

场景2：列表排序分页场景的缓存

有时候我们需要获得一些列表数据，并对这些数据进行排序和分页。

例如我们想获取点赞最多的评论，或者最新的评论，然后列出来，一页一页的翻下去。

在这种情况下，缓存里面的数据结构和数据库里面完全不一样。

如果完全使用数据库进行实现，则按照某种条件将所有的行查询出来，然后按照某个字段进行排序，然后进行分页，一页一页的展示。

但是当数据量比较大的时候，这种方式往往成为瓶颈，首先涉及的数据库行数比较多，而且排序也是个很慢的活，尽管可能有索引，分页也是翻页到最后，越是慢。

在缓存里面，就没必要每行一个key了，而是可以使用Redis的列表方式进行存储，当然列表的长短是有限制的，肯定放不下数据库里面这么多，但是大家会发现其实对于所有的列表，用户往往没有耐心看个十页八页的，例如百度上搜个东西，也是有排序和分页的，但是你每次都往后翻了吗，每页就十条，就算是十页，或者一百页，也就一千条数据，如果保持ID的话，完全放的下。

如果已经排好序，放在Redis里面，那取出列表，翻页就非常快了。

可以后台有一个线程，异步的初始化和刷新缓存，在缓存里面保存一个时间戳，当有更新的时候，刷新时间戳，异步任务发现时间戳改变了，就刷新缓存。

场景3：计数缓存

计数对于数据库来讲，是一个非常繁重的工作，需要查询大量的行，最后得出计数的结论，当数据改变的时候，需要重新刷一遍，非常影响性能。

因此可以有一个计数服务，后端是一个缓存，将计数作为结果放在缓存里面，当数据有改变的时候，调用计数服务增加或者减少计数，而非通过异步数据库count来更新缓存。

计数服务可以使用Redis进行单个计数，或者hash表进行批量计数

场景4：重构维度缓存

有时候数据库里面保持的数据的维度是为了写入方便，而非为了查询方便的，然而同时查询过程，也需要处理高并发，因而需要为了查询方便，将数据重新以另一个维度存储一遍，或者说将多给数据库的内容聚合一下，再存储一遍，从而不用每次查询的时候都重新聚合，如果还是放在数据库，比较难维护，放在缓存就好一些。

例如一个商品的所有的帖子和帖子的用户，以及一个用户发表过的所有的帖子就是属于两个维度。

这需要写入一个维度的时候，同时异步通知，更新缓存中的另一个维度。

在这种场景下，数据量相对比较大，因而单纯用内存缓存Memcached或者redis难以支撑，往往会选择使用levelDB进行存储，如果levelDB的性能跟不上，可以考虑在levelDB之前，再来一层Memcached。

场景5：较大的详情内容数据缓存

对于评论的详情，或者帖子的详细内容，属于非结构化的，而且内容比较大，因而使用Memcached比较好。

五、缓存三大矛盾问题

1、缓存实时性和一致性问题：当有了写入后咋办？

虽然使用了缓存，大家心里都有一个预期，就是实时性和一致性得不到完全的保证，毕竟数据保存了多份，数据库一份，缓存中一份，当数据库中因写入而产生了新的数据，往往缓存是不会和数据库操作放在一个事务里面的，如何将新的数据更新到缓存里面，什么时候更新到缓存里面，不同的策略不一样。

从用户体验角度，当然是越实时越好，用户体验越流畅，完全从这个角度出发，就应该有了写入，马上废弃缓存，触发一次数据库的读取，从而更新缓存。但是这和第三个问题，高并发就矛盾了，如果所有的都实时从数据库里面读取，高并发场景下，数据库往往受不了。

2、缓存的穿透问题：当没有读到咋办？

为什么会出现缓存读取不到的情况呢？

第一：可能读取的是冷数据，原来从来没有访问过，所以需要到数据库里面查询一下，然后放入缓存，再返回给客户。

第二：可能数据因为有了写入，被实时的从缓存中删除了，就如第一个问题中描述的那样，为了保证实时性，当数据库中的数据更新了之后，马上删除缓存中的数据，导致这个时候的读取读不到，需要到数据库里面查询后，放入缓存，再返回给客户。

第三：可能是缓存实效了，每个缓存数据都会有实效时间，过了一段时间没有被访问，就会失效，这个时候数据就访问不到了，需要访问数据库后，再放入缓存。

第四：数据被换出，由于缓存内存是有限的，当使用快满了的时候，就会使用类似LRU策略，将不经常使用的数据换出，所以也要访问数据库。

第五：后端确实也没有，应用访问缓存没有，于是查询数据库，结果数据库里面也没有，只好返回客户为空，但是尴尬的是，每次出现这种情况的时候，都会面临着一次数据库的访问，纯属浪费资源，常用的方法是，讲这个key对应的结果为空的事实也进行缓存，这样缓存可以命中，但是命中后告诉客户端没有，减少了数据库的压力。

无论哪种原因导致的读取缓存读不到的情况，该怎么办？是个策略问题。

一种是同步访问数据库后，放入缓存，再返回给客户，这样实时性最好，但是给数据库的压力也最大。

另一种方式就是异步的访问数据库，暂且返回客户一个fallback值，然后同时触发一个异步更新，这样下次就有了，这样数据库压力小很多，但是用户就访问不到实时的数据了。

3、缓存对数据库高并发访问：都来访问数据库咋办？

我们本来使用缓存，是来拦截直接访问数据库请求的，从而保证数据库大本营永远处于健康的状态。但是如果一遇到不命中，就访问数据库的话，平时没有什么问题，但是大促情况下，数据库是受不了的。

一种情况是多个客户端，并发状态下，都不命中了，于是并发的都来访问数据库，其实只需要访问一次就好，这种情况可以通过加锁，只有一个到后端来实现。

另外就是即便采取了上述的策略，依然并发量非常大，后端的数据库依然受不了，则需要通过降低实时性，将缓存拦在数据库前面，暂且撑住，来解决。

六、解决缓存三大矛盾的刷新策略

1、实时策略

所谓的实时策略，是平时缓存使用的最常用的策略，也是保持实时性最好的策略。

读取的过程，应用程序先从cache取数据，没有得到，则从数据库中取数据，成功后，放到缓存中。如果命中，应用程序从cache中取数据，取到后返回。

写入的过程，把数据存到数据库中，成功后，再让缓存失效，失效后下次读取的时候，会被写入缓存。那为什么不直接写缓存呢？因为如果两个线程同时更新数据库，一个将数据库改为10，一个将数据库改为20，数据库有自己的事务机制，可以保证如果20是后提交的，数据库里面改为20，但是回过头来写入缓存的时候就没有事务了，如果改为20的线程先更新缓存，改为10的线程后更新缓存，于是就会长时间出现缓存中是10，但是数据库中是20的现象。

这种方式实时性好，用户体验好，是默认应该使用的策略。

2、异步策略

所谓异步策略，就是当读取的时候读不到的时候，不直接访问数据库，而是返回一个fallback数据，然后往消息队列里面放入一个数据加载的事件，在背后有一个任务，收到事件后，会异步的读取数据库，由于有队列的作用，可以实现消峰，缓冲对数据库的访问，甚至可以将多个队列中的任务合并请求，合并更新缓存，提高了效率。

当更新的时候，异步策略总是先更新数据库和缓存中的一个，然后异步的更新另一个。

一是先更新数据库，然后异步更新缓存。当数据库更新后，同样生成一个异步消息，放入消息队列中，等待背后的任务通过消息进行缓存更新，同样可以实现消峰和任务合并。缺点就是实时性比较差，估计要过一段时间才能看到更新，好处是数据持久性可以得到保证。

一是先更新缓存，然后异步更新数据库。这种方式读取和写入都用缓存，将缓存完全挡在了数据库的前面，把缓存当成了数据库在用。所以一般会使用有持久化机制和主备的redis，但是仍然不能保证缓存不丢数据，所以这种情况适用于并发量大，但是数据没有那么关键的情况，好处是实时性好。

在实时策略扛不住大促的时候，可以根据场景，切换到上面的两种模式的一个，算是降级策略。