下面的2中情况下,优化存储系统是无法有效提升性能的。
例如需要展示有多少用户在线,如果使用数据库,每次都要执行 count 操作,展示量很大的话就对数据库造成了极大压力。
例如一个明星发布一条微博,可能有几千万人浏览,如果每次浏览都 select 一次的话,几千万的请求对数据库的压力非常大。
缓存就是为了减轻存储系统的压力,将可重复使用的数据放到内存中,一次生成、多次使用。
缓存虽然为存储系统减负了,但给架构设计带来了复杂性,下面3点需要重点关注:
缓存穿透
缓存雪崩
缓存热点
指业务系统在缓存中没有查到数据,需要再次去存储系统查询。
通常有2中情况:
存储数据不存在
被访问的数据确实不存在,存储系统中没有,那么缓存中肯定也没有。
对于这类数据,每次都要查询缓存、查询存储系统,如果有人恶意大量访问一些不存在的数据,就会对系统产生严重影响。可以直接设置一个默认值放到缓存中,防止访问存储系统。
缓存数据生成需要耗费时间或者资源
存储系统中存在数据,但生成缓存耗时耗资源,缓存失效后,访问压力就集中在存储系统了。
例如商品分页,数据量巨大,不能都缓存起来,只能分页缓存,页数靠后的访问少,缓存就很容易过期消失,之后的访问需要计算、访问存储层,重新生成缓存。
正常情况这类访问不会频繁,但如果爬虫遍历的时候,系统性能就可能出问题了。
这种情况没有太好的解决方案,可以考虑:
识别爬虫禁止访问,但这会影响SEO和推广;
做好监控,发现问题后及时处理,爬虫不是攻击,对系统的影响是逐步的,监控发现问题后有时间处理。
当缓存过期被清除后,业务系统需要重新生成缓存,访问存储系统、计算。
高并发的系统中,在新缓存还未生成的这一小段时间内,可能会有上百个请求进来,他们发现缓存中没有,就都去生成缓存,从而对存储系统造成巨大压力,引发连锁反应,造成系统崩溃。
解决方案:
更新锁
对缓存更新操作进行加锁保护,保证只有一个线程能够进行缓存更新。
对于分布式系统,可能有上百台服务器,即使每台服务器上只有一个更新线程,但总体数量大,同样会引发雪崩,需要使用分布式锁。
后台更新
缓存有效期设为永久,后台线程定时更新。
需要考虑一个情况:当缓存内存不足时,会清理掉一些缓存数据,从被清理到下次更新缓存这段时间内,业务访问时读到的就是空。
可以考虑当业务发现缓存失效后,发送一个消息,通知后台线程进行更新。
后台更新机制还适合做缓存预热。指系统上线后,定时触发了缓存加载,不用等待用户访问才加载。
缓存中的个别数据可能是大热点,短时间内会被高频访问,虽然缓存服务器的性能好,但如果访问量过大也会带来性能压力。例如明星的某条微博被海量用户浏览。
解决方案:复制多个缓存副本,分散请求,减轻单体服务器压力。
需要注意:不同副本不要设置统一的过期时间,防止同时失效引起雪崩。可以设定一个过期时间范围,不同副本的过期时间指定范围内的随机值。
内容整理自《从0开始学架构》
点击:point_down: 阅读原文 ,查看 文章列表