本站点所有文章,仅代表个人想法,不代表任何公司立场,所有数据都来自公开资料-- 转载请注明出处--
当省钱成为常态
根据 RightScale 2019 State of the Cloud Report from Flexera 调查报告称,2019 年被访问企业第一优先级是云成本优化,已经连续 霸榜三年 了,今年疫情期间,这个问题对于所有客户就更突出了;
今天咱们就以架构师的视角来聊聊这个话题!
同样上面的报告指出,企业客户的最大挑战是云成本管理和云治理能力,而且企业用户并没有倾其所能来优化云成本(云使用浪费成本高达 35% 或 100亿美金),这样看起来就非常矛盾了:
企业期望优化成本 与 自身云成本管理和治理能力矛盾
企业期望成本优化 与 云使用巨大浪费之间的矛盾
不管你目前处于什么阶段,哪个行业,云服务作为新的基础设施“运营商”,已经成为支撑企业业务创新升级的核心技术能力平台(尤其是在线业务,数据平台和智能平台),该平台还在不断快速进化中。
如何理解呢?虽然公有云已经有 14 年历史了,使用云服务的企业也日益增多,但云使用和管理的成熟度来说,很多企业还处于初级阶段 。
很多大型企业客户都有非常成熟的 IDC 使用和管理经验,或者团队中有非常资深的 IDC 运维管理技术人员,如此再深入到这类企业的应用层,通常整体架构受限于 IDC 本身的局限(比如容量相对固定可控-缺乏弹性扩缩容,非可编程的基础设施-直面硬件层运维管理,网络虚拟化程度-细粒度管理难题,存储资源容量,缺少跨区域容灾等等)。
IDC 和云的一个明显的区别是:
一个是单租户,堆硬件,建设标准千差万别,有单客户规模化低成本效应
一个是多租户,标准化纯软件服务接口,高标准基础设施及高可用,快速全球化,享受超大规模化红利,以及技术进步红利
持续的疫情又给大家上了一课,企业的弹性成本和固定成本的影响,IDC 的资产属于一次性固定成本,在业务量由于不可抗拒、不可预测的因素影响时,这部分成本很难减少;而云的使用成熟度越高的企业,弹性成本占比越高,这个时期,明显可以跟随业务量的变化而降低云成本支出。
那是不是要把所有的业务都从 IDC 迁移到公有云呢?
一切不从业务和企业愿景出发的结论都是耍流氓,所以,不基于具体客户的具体分析,不会有答案,不过至少云服务是你可以放到一篮子方案的一个选项!
个人建议企业投入时间到员工的培训,提升对公有云的认知和治理能力,从业务出发,直到可以辨识掌控云和业务的相互促进关系;有非常多的成功的云使用场景,比如 HPC,Web 应用,游戏,短视频,直播,电商,银行,保险等的,其中 心动、小红书、Skyscanner/Expedia/Netflix 甚至 GE、Capital One、FINRA 是其中典型的一些代表。
如果从成本出发来考量,起步阶段,可以从 TCO 整体拥有成本的计算出发。
https://aws.amazon.com/cn/economics/
那回到本小结的问题,IDC 到公有云成本会降低吗?
答案是如果你把 IDC 的使用方式直接也”迁移“到公有云,结果一定会超出你的想象(两者看似相似,本质不同),Skyscanner 的团队就曾经遇到这样的挑战,直到他们技术团队丢弃传统购买商业 License 授权的模式,改造核心系统到云原生之后,整体成本才取得一个合理的水平,而且大部分是弹性成本。
这个结论是 Netflix 团队从 IDC 到公有云的转型过程中对于云服务本身的一个认知和定位。
从成本角度来看,这又是很大的一个挑战,看看下面这张图,原先的企业 IT 流程是从左到右强管控,但到云上,还延续这样的方式(IT 惯性“慢”模式),业务团队本身感受不到任何云带来的敏捷和高效,这也是很多企业上云初期比较困惑的一个挑战。
在云上:
云资源 - 开箱即用,即产生成本(业务开发主导的云使用模型决定了云成本模型)
各职能团队利用成本数据,进行目标管理和成本细化
业务规模扩张时,持续完善成本治理
利用工具自动化按需资源的使用和优化
贵和不贵,通常是有对比才会有伤害,但不少企业往往东比比西比比,最后忘了自己的初衷。
那成本优化的初衷到底是什么?
我们所谈的成本优化,有两种情况,一种是客户对自己的单位业务成本很了解,比如广告客户以每千次点击(CPC)跟他们的客户收费,那业务上必然要控制的就是每次用户点击的 IT 服务成本。另外一种情况,客户没有关联具体业务指标,而是就 “IT” 谈 “IT” 优化,老实说,后一种情况是最挑战的,那优化到什么点是个头呢?
这种情况更加建议客户先做优良架构优化,挤掉云使用的水分。
因此,企业成本优化的贵和不贵的初衷,健康的模型是关联到具体业务指标,比如上图的 Lyft,主要业务就是拼车,业务运营指标是拼车交易量,而 IT 成本很容易就关联到单位出行 IT服务成本,这样成本优化的目标就是优化单位出行的 IT 成本:(1)当业务规模持续增长时,保持下降趋势(不断优化)(2)单位 IT 服务成本优化到某一阈值可以有更多行业竞争优势;(3)IT 服务支撑的能保障业务的高速增长和创新实验。
“古希腊人认为,这个世界是简单的,它的运行规则可以用 数学 来表达。” 套用到成本管理,从第一天开始,我们就需要有成本数据,协助团队来度量业务和效率,成本数据的收集依赖账号组织结构和成本标签策略,更依赖于可编程的价格服务 API;
如下图是 Lyft 的一个成本大数据平台架构,编程方式融合对云服务的购买选型的数据,日常团队的云服务用量的监控数据,经过数据分析,提供管理团队,各云组织用户,容量管理团队,更加直观的各种报表和成本优化建议提示。
商务谈判重不重要?重要。
但技术优化本身也是成本优化的半边天,甚至某些场景要比商务谈判更直接有效。
技术优化对成本的影响非常大,想想第一段提到的 35% 的使用浪费,任何行业的价格折扣都可以关联到整体的用量,云服务也不例外,用的越多,省的越多(阶梯定价和大企业折扣),但这个前提是你已经认可技术优化已经是目前阶段最优,基于这个不掺水的用量,再进行商务谈判,才能避免浪费,优化到符合业务规模化增长的合理成本增长结构。
正因为,云和客户不是简单一次性的资源买卖关系,作为客户的业务技术支撑平台及基础设施运营方,客户成功,平台才能成功,大家是互相成就,因此定位为长期互信发展的合作伙伴关系更靠谱。
比如 Netflix 团队对于 云服务(AWS)的定位:
尽可能利用 AWS 服务(因为 AWS 在云服务上持续有巨大的投资,没有必要重复造轮子)
最大化开发人员的生产率和敏捷度
接口化隔离应用和 AWS,避免和 AWS API 细节锁定
云是由开发者掌控的,Netflix 的 IT 是 AWS API
传统的很多 IT角色都转型成开发者,谁开发谁运维
长期目标:当市场其他的云计算玩家赶上 AWS 的时候满足可移植性
从上图的云成本优化成熟度坐标图,我们可以认识到云的成本管理,涉及的方方面面特别多,在熟悉云价格模型的基础之上,更广泛的业务、开发、运维人员都可以参与到整个成本优化迭代循环,借助成本大数据分析建设,更敏捷的应对成本挑战。
如何开始做技术优化?
避免浪费:发现浪费、优化资源、优化架构(比如虚机利用率,磁盘IOPS利用率,磁盘空间利用率等等)
弹性:根据业务特性,提升应用包括基础设施弹性伸缩能力,提升弹性成本占比(比如按请求次数收费,Spot 实例,按实际流量收费等等)
最近直播带货圈流行一句 ”不要用你的业余爱好pk人家的专业“,成本管理和优化不仅仅是一个商务谈判,更多是一个非常专业的技术活,欢迎各位 Builder 和合作伙伴构建更多工具帮助客户更好的评估、选择和优化云成本。
点击阅读原文,回顾最新的大规模容器平台的成本优化在线动手训练营视频。