【编者按】本文是 Skytap 内容主编 Noel Wurst 对 DevOps Enterprise Summit (DOES)的不完全综述,内容包括了 Noel 和一些与会嘉宾的思考,旨在勾画 DevOps 当下的局势,以及未来的趋势。以及 DevOps 的真正价值——DevOps 正帮助越来越多的企业迈向非凡成功之路。本文系OneAPM 工程师编译整理。
以下为译文:
正如 Elisabeth Hendrickson 的闭幕演讲的标题「It’s all about feedback」,因此笔者也撰写了自己的参会感,注以下斜体字是笔者参加演讲时现场所记。
Gene Kim 在主题演开幕词中指出,对比2014年的600张售票,本次会议售票激增到1200张,而之所以形成这个局面,主要是因为 DevOps 当下已经切实预备运用于许多大型项目,全世界都在期盼从中获取价值。
关键人物:
Ross Clanton, DirectorHeather Mickman,Senior Group Manager
Target 的 Ross Clanton 和 Heather Mickman 对「pre-DevOps」那个过程分享的直率令人感动。摘录:
「Target 多年前就曾困惑于工程师的重要性。我们知道必须改变现状......我们在 silos 中嵌套 silos ......单服务器支撑需要十个团队才能完成,而 IT 部门处于一片混乱,以至于大部分的开发流程都耗在等待队列中。」
Ross 说:
「我们得到了很多称赞,但这还只是刚刚开始——我们正从事着非常有意思的工作,但还有很长的路要走」。
Target 的发言奠定了本次会议的主题,不仅仅是分享其发展和运营团队的成功,还讲述了不久前的糟糕境况。虽然很多人会说围绕 DevOps 的原则已是旧谈,但成功 DevOps 的举措所带来的收获,让整个过程中的挫折和失败也都变得有意义。
Jody Mulkey,Ticketmaster CTO
Jody 用足球来比喻:长久以来,开发和运维都被认为是功能相反的团队。在足球场上,运维被视为防守,试图阻止开发者(进攻)的射门。但运维其实也应该归为进攻,尽一切努力给开发者争取充足的时间来得分。
从2011年到2014年,Ticketmaster 的开发者人数增加230%,而运维人数只增加了12%。 Mulkey 却说「这可不是好事」。
修复 bug 的平均时间以前是47分钟,但现在是3.8分钟。时下存在更多的挑战,永远需要修复错误,部门自视为是其他部门的对手,长时间等待。之所以老生常谈,因为大多数企业都经历着这些斗争。
Jody 的故事也非常有意思,他谈到 Ticketmaster 如何成就「背负着遗产前行」 ,以及 DevOps 是如何适用于传统的大型机系统。Ticketmaster 的售票引擎产生了25亿的收入,尽管它首次提交代码是在1976年。正是这个系统和团队的不懈努力支持着 Ticketmaster,使得修复 bug 的平均时间从47分钟提升到如今的3.8分钟。
Michael Bueche, AVP IT Operational Excellence, USAADibbe Edwards, VP Development, DevOps for Hybrid, IBM
当引入一个 DevOps 这样的大型变革到企业时,建议一步步从小处开始,贪多嚼不烂。Michael Bueche 详细地讲述了 USAA 在推向市场前158天的历程,及产品90天后部署敏捷方法的经历,以及当前的每周目标。
「我们人类在确定行动或决定之前,会常常经历一个非常糟糕的时期,以及在获得结果前。把这种状态比作‘热炉’再恰当不过。试想,当你把手放在滚热的炉子,要多久才能意识到疼痛?并不需要一个星期。正如一个开发者在生产中出现 bug,而你直到6周后才发现这个问题,那么找到责任人有多难?甚至即使你找到了,让开发者回忆当时的问题和原因也很难。缩短反馈回路非常有必要,也帮助行动对应其结果」——Michael Bueche
Dibbe 说:
「我们必须确保企业中有适用于 DevOps 计划的可伸缩环境,同时还一直致力于寻求提高的方法。」
在 Michael 分享之前,笔者从来没有听说过「热炉」这个比喻,的确非常适用于 DevOps、敏捷或现代化软件交付。反馈回路必须缩短,才能按时完成和防止生产过程的问题。
赋予开发/测试团队可以按需独立提供扩展性环境的能力,然后再更早更频繁地进行检测,获取 bug 状态的快照,使开发人员可以很容易地重现 bug 并予以消除。就像 Jez Humble 所说的——先在自己的环境下搞好!
Carmen DeArdo, DevOps Technology Leader, Nationwide Insurance
Carmen 说,Nationwide 也曾考虑过外包软件交付,顶住了种种压力,他们证明这是完全没必要。从减少依赖、等待时间和未计划的工作中,可以降低大量预算。
Carmen DeArdode 的幻灯片展示了妨碍 Nationwide Lean 交付的因素,以及与此同时,国外的企业在如何应对。
另一个恰当的运动和软件类比,笔者认为这个观点非常恰当:「如果你的团队缺乏一体化的工具,就像你在完全不了解篮球队的比赛情况下,却要指导篮球队的实战训练,所以根本无法针对实际问题进行操作。」
笔者确实非常喜欢 Carmen 的演讲。超过200个敏捷团队正在质量和生产方面做出显著提升,但 Nationwide 仍然处于等待状态,在各种规模的企业内都普遍感到这种状态。
那么,Carmen 和 Nationwide 到底做了什么呢?他们从未停止推进,「在持续交付中采用 DevOps,在移动端、分布式、主机和其他技术中使用精益和敏捷技术。」
Carmen DeArdo 的幻灯片显示,在引进精益应用开发后 Nationwide 的收获。
以上是第1天的内容,根据一起参会的 Skytap 同事所说,某些错过的其他回忆也同样令人深省!可以在网上找找我们现场所录的 博客 ,视频中会包含其他会议!
在轮渡大厦的 Boulettes Larder 享用了平静安宁的早餐后,第二天也像第一天那样,在匆忙的会议中进行。
Tapabrata Pal, Product Manager, Capital One
Tababrata 说:
「为什么要开源我们的工具?因为这是正确的做法,它们有助于一个持续实验和学习的文化,开源令它变得更好。」
这是笔者在 Tapabrata 主题演讲中唯一记录的东西,但不是说其他的内容都不好。
老实说,事实恰恰相反。但他对开源工具的观点确实令人影响深刻,以及简单有力的答案,「这是应该做的......因为开源令它变得更好」,引起全场轰动的掌声,以至于几乎全场都起立为之喝彩。
Tapabrata 接着指出,Capital One 非常擅于获得快速反馈,因为他们需要保证员工和客户都高兴。
有资源的团队被称为「办公时间」,无论什么项目都可以在那里获得帮助,以及「客户之声」项目可以让客户指出瓶颈位置——传统思想这种情况只会出现在企业内部中。我很喜欢这个主意。
「我不是在构建网络软件,为什么要关心持续交付?」讨论由 Jez Humble 主持
嘉宾从左到右依次是:Jez Humble、 Gary Gruver、Kathy Herring Hayashi、Hugo Gayosso 和 Anders Wallgren。
「如果你在打造精品,它会很快地融入市场。」因此,发现的错误越晚,付出的代价就越昂贵。在嵌入式软件中,这会变得严重得多。汽车、医疗器械对高品质的需求,安全软件是绝对必要的。”
观众提问:「这些变化需要什么文化?」 「产品是容易投入的,并且IT部门不能只被当作成本中心......它们同样应该被视作完成业务的根本。」
尽管这个讨论专为嵌入式软件行业设计,但该组的讨论仍适用于大型机到移动端,以及介于两者之间的平台。这些天每个人都在说,交付生命周期晚期发现 bug 的成本远远超过早期,在进入客户的手中之前。
「构建质量」可能需要严重破坏的现状,无论团队在这方面有多么熟悉,「他们一直都做的方式」,多长时间才能负担得起继续沿着这条道路的成本?
正如这个小组所说,「IT不能只被看作是成本中心」 。对于软件交付同样适用,软件交付也经常被当作成本中心,或者是获取功能及发布的障碍。
对虚拟环境、DevOps、连续检测以及整个交付过程的其他改变的需求,改变着世人对该团队的看法,并让他们对软件的速度和质量产生实质性的影响力。
Jason Cox,Systems Engineering Disney Internet Group,Web Operations
这并不容易,但运维就有机会扭转局面。那么,如何为你的「DevOps Jedi」寻找成功的契机?
引用自迪斯尼,显然所指的是开发/测试/运维团队。
在该会议上,笔者没有做任何记录,因为不愿意错过 Jason 的每一句话。显而易见,他不可思议的星球大战理论,和前两个月上映的《星球大战7》遥相呼应,但即使没有这部电影,他的演讲仍然会让人耳目一新。
笔者不清楚这周是否有人更明确地揭示组织中的繁文缛节、官僚机构、silos 和内战的普遍现状。
但这显示出 Jason 的诚实和热情,他说:「一切都尚待改变」。这让在座的所有人都摩拳擦掌,想要带着这份触动和灵感回归自己的团队。
就像许多人已经多次指出:没有哪种方式是容易的。DevOps、敏捷方法、持续集成/测试/部署/交付都很艰难。有时说,「随时都可以开始」,但这远远不够。这些变化带来的价值并非一蹴而就。
正如 Jason 所说,你需要被启发。如果缺乏灵感,我强烈建议大家来听听 Jason 的演讲,或许能激发你的相关思考。
Jez Humble,Author,Continuous Delivery
「在座的有做持续集成的吗?」,几乎所有人,1000名观众,都在举手。「谁可以在发现 bug 的10分钟内解决故障?」大家笑了笑,放下了手。「你应该可以通过按钮就能从发布转到生产状态。每一个构建中的更新,而每一个版本都是候选版本……软件应该永远处于可检验状态,并且始终可部署。开发者必须从一开始就关心这些内容。DevOps 可能无法保证其安全性、可靠性和部署性。你必须尽早地构建这些内容。我们必须追溯到1970年代以来,我们所了解软件开发的一些非常实用的内容。大多数独角兽也只是性能达标的马而已。」
关于 DevOps 定义的模糊性问题对笔者而言问题不大,但笔者同样了解对于缺乏具体的、普遍能接受的定义会让一些人抓狂。所以不足为奇,笔者也很欣赏 Jez Humble 对持续交付(CD)的定义:
也许,正是因为 Jez 根据结果来定义 CD 才使得其如此受欢迎,而并非采用单一指令性的全有或全无方法。
笔者不清楚你们中有多少人是 Jez Humble 的粉丝(我们当中倒是有很多)。然而,正是这种感觉,每次他演讲或写一本新书,整个世界都为之疯狂。
Rosalind Radcliffe,Distinguished Engineer,Chief Architect for DevOps and CLM,IBM
Rosalind Radcliffe 拉开 DOES 最后一日的序幕,她用 IBM 公司26年的工程师生涯体验和通过虚拟化改变大型机系统的方法,很快打动了在场所有人。
相同的方法也用于 Skytap 和许多合作伙伴规定。在必要时,任何受限于硬件的任何开发和测试团队,都难以获得甚至不可能获得访问。
Rosalind 的主题演讲非常出色,她作为是众多企业演讲者的一份子,向所有人证明 DevOps 实践正在顺利地被引入大型主机层面。
Joshua Corman ,CTO, SonatypeJohn Willis ,Director of Ecosystem Development, Docker
「IT运维已经迷失了20年时间;是 DevOps 让我们成功返航」——John Willis
「我想要拯救生命。我们对软件的依赖程度越来越大,是因为嵌入式的医疗设备、汽车、家——我想要这些东西运作起来。」——Josh Corman
「我们需要为编码构建代码。如果你并不热血沸腾,不如选择离开」——John Willis
如果迪士尼的 Jason Cox 获得「最佳会议奖」,那应该是实至名归,尤其是作为星球大战迷的笔者,但这实际上这份容易也可以颁给 Joshua 和 John 的「永恒的魅力」主题演讲。
当 Joshua 说,他不只是热爱软件或 DevOps,这是在挽救生命,你会相信他对于这份事业的热爱。
用2010年在海地和智利的地震来举例,能看到架构质量之间的差异,Joshua 指出,当海地的7.0级地震导致23万人丧生时,智利更强的8.8地震只造成279人死亡。
这两者之间的差距令人难以置信,其中一个原因就是智利严格的建筑法规,而海地正缺乏这样的规范。
「我们需要建立编程的规范」,Corman 说道。我们对软件的依赖,可以促进社会交往或帮助移动商务交易,会迅速移动到同时取决于在复杂医疗设备、汽车内置的软件。
那些负责保证这些连接设备正常运行,并防止黑客攻击和故障的代码,更有责任保证工作质量。
Elisabeth Hendrickson,VP of Engineering, Pivotal’s Big Data Suite
「更多的测试者不等于质量更好」,避免:反馈流污染、误报警/故障、失真、丢失信息
从开发者、测试者、运营、软件的用户/客户、安全性到系统本身,DevOps 需要每个来源的快速反馈,并结合我们所听到的采用反馈的组织所创造的优秀事迹。
原文链接: http://www.tuicool.com/articles/YV7vqmV
本文系国内 ITOM 行业领军企业OneAPM 工程师编译整理。我们致力于帮助企业用户提供全栈式的性能管理以及 IT 运维管理服务,通过一个探针就能够完成日志分析、安全防护、APM 基础组件监控、集成报警以及大数据分析等功能。想阅读更多技术文章,请访问 OneAPM官方技术博客