6.……毫不留情地问正确的问题,并不断寻找下一个。
一个成功的、成熟的数据科学能力的基础是能够提出正确数据类型问题的能力。这是基于理解企业如何运作或经营的挑战体现在自身身上。最好的数据科学团队有着前面提到的所有优秀品质(见“5…吸引和保留不同的参与者,使他们自由地探索。”):好奇、创意、沟通、协作、勇敢的问题解决者、终身学习者、实干者、有韧性。
成熟的数据科学能力的展现在不懈追求新问题(甚至可能是之前永远不会被问到的问题)和在问题中提出疑问!数据科学成熟使组织能够从企业的整体层面上去提出一些尖锐的问题,只需规定如何询问这些问题,而不害怕得到“错误的答案”。
在这种情况下,随着数据科学能力的成熟的是分析能力的成熟。高级分析往往被描述为超越传统商业智能的分析的新阶段,包括描述性分析(后见)和诊断分析(监督)。当前高级分析包括了这些新阶段:预测分析(远见)和规范分析(充分地洞察你的业务,知道哪些决定、行动或干预将导致最佳的、最优的结果)。分析的下一个新兴阶段成熟是认知分析(“正确的景象”)-知道你的数据(在正确的时间,在正确的语境,正确的使用案例。这种“认知”的能力不只是得到正确的答案,还要能提出正确的问题(特别是从来没有被要求或考虑的问题)。分析成熟度是数据科学能力的最高水平成熟。正如谚语所说:“最坏的问题是你不问的那个问题。”
7.……感谢快速失败(fast-fail)的合作文化。
文化是一种很难定义的东西,但是如果你用文化来评估一个团队,它是很好的指标。有些组织害怕失败,或有一种“不赞成”文化。他们更加注重战略而不是文化。但不少企业专家提醒我们“文化早餐策略(或午餐)”,因此,你对数据科学文化所做的准备要早于你的数据科学策略。承认错误是一回事,但有目的地用你的数据去探索未知并不是一个错误。你可以通过自我提问测试你的组织成熟度:当我的假设失败时会发生什么?快速失败的心态就是这句话表达的含义:“好的判断来自经验。而经验来自坏的判断。”
真实的数据科学(基于严谨的科学方法论,见4.……遵循严格的科学方法,即测量、实验、纪律化、迭代、精炼所需的假设)探索那些可以通过agility的多个假设的迭代很快学会的事物。这可能需要你邀请你的业务合作伙伴探讨你的数据‐使用DataOps(见“2.……全面使用Agile并利用dataops(即DevOps的数据产品开发)”)。拥有数据和工具直接关系到它的成功和成熟(见“1.……将所有数据和数据访问对其成员开放。”)。成熟的数据科学能力会考虑到一个迭代的fast-fail文化可能会帮你实现最有价值的发现,做出以证据为基础的最好的决定,并为您的组织提供最具创新性的选择。
一个项目失败的阴影往往难以被克服。很难界定花费有限的资源却发现假设是错误的——来自知道在文化中那些没有做的事常常会失去或不被庆祝的价值。一个成熟的数据科学能力和传统的A/B测试相似。设计实验来测试、用评估替代假说,其中一个可能包括一些干预或调整(治疗样本)二是零假设(适用于控制,未经处理的样品)。通常情况下,这些实验中的一个将失败,另一个不会。这是一个测试的全部要点。如果一个组织不能接受失败,那么他们就无法获得成熟的数据科学。
值得强调的是,快速失败构成了机器学习算法的分析基础。具体而言,许多分类算法的目标是尽可能准确地定义边界(尽管是复杂的)来区分不同类别的对象。
这个边界可能是线性的(例如,如果你的团队比我的团队获得更多分数,你便获胜),它也有可能是倾斜的(例如,如果你A+B两门考试的总成绩是140(满分200)然后你便通过这门课程),或者它可能很复杂(当你处理高维的复杂数据时,超平面能够用支持向量机(SVM)算法将两个类别区分开来)。
为了在复杂的分类规则之间划分边界(例如,商业决策、产品选择或类标签),这个问题的空间可以表示为一个在不同区域的边界被精确地定义的映射的练习。
沿每一个“英寸”确定边界的位置需要详细、全面的调查。例如,如果你想检验当你打折时你的客户会在黑色星期五购买你的产品这一假设,那么你需要尝试多种折扣(10%,20%,30%,40%,甚至0%)看哪里是真正的边界。在确定你的投资回报率优化的边界上,你的利润率是非常关键的,这意味着寻找边界两侧的点(失败和成功的条件),直到找寻边界点最后形成一个框架。在这种情况下,快速失败是必要的,否则资源投资就浪费了。
8.……通过插图和讲故事来展示自己的见解
大多数组织都有某种形式的报告。这通常集中产生于月度或每周回顾中,其中折线图、柱状图或饼图会说明了在报告中的时间内发生了什么。这意味着,该组织的能力不会超越问“发生了什么,什么时候?”这个水平,它局限于描述性分析的世界里。它为预测和规范分析的兴起提供契机。因此,成熟的数据科学组织将会问:“为什么会发生这样的事情,接下来会发生什么,我们能做什么来取得更好的结果?”并且组织可以通过询问“我应该对我的数据提出什么问题?”取得进一步成熟。
当有洞察力的产生来回答“如果怎么样会怎么样”问题(“什么可能发生”或“什么是所有可能的结果,如果我们…?),这些回答不能被简化为一个直线图或条形图来说明结果的影响。图表、美丽独特的插图不仅是你努力工作的证明,更会产生关键性的影响。成熟的数据科学能力聚焦于更难回答的问题,然后用新的和创造性的方式回答(说明),故事,和见解,数据显示出来。
因此,成熟的数据科学团队包括一个或更多的以艺术家的角度描绘数据和用数据讲故事的人。故事和可视化是我们在事实间建立联系的地方。它们使听者能够更好地理解上下文(什么?),为什么(这么说?),以及“什么将在未来发生”(现在会发生什么?)。
9.……建立价值证明,而不是概念证明。
许多组织寄希望于从现成的数据科学中寻找答案。他们想利用供应商告诉他们会解决他们的问题特定的工具,所以他们成立了一个Hadoop环境(或类似的),将数据导入到它,问一个问题,看看系统是否有提供了现成的“正确答案”!对吗?
错!
成熟的数据科学能力意味着有条理地安排你的试验。什么是你真正希望你的试验证明的概念或真正的商业价值?价值证明改变了工作的价值命题。所以,更多的关注于价值(回答新的问题,开拓新的市场,获得新的见解),而不是那些你已经知道了答案的问题。因此,专注证明你正在建设的数据科学能力将是一个持续证明价值的旅程,(例如,10倍于许多我们已有的经验),这将解决组织最大的“未知的未知数。”
建立与价值的思想,用Agile来武装你所做的(见 2. ……全面使用 Agile 并利用 dataops (即 DevOps 的数据产品开发) )。DataOps文化庆祝成功的MVP(最小可行产品)-尽可能快的提供有价值的产品(而不是概念证明),从而使团队走向下一个成功。
10.…将数据科学作为一种做事方式,而不是一件要做的事。
数据科学不仅仅是一个口号,或只是数据分析师或商业智能功能的一个标签。不要把它用来做一个更好的月度报告(“请呈上TPS报告封面”)。它当然不是一劳永逸的。
数据科学是组织思考方法和运作模式的根本转变。它包括以数据为核心的所有功能,是一种新的有趣的方式,使组织更具创新性。成熟的数据科学能力的证据是一个组织相信并以此为信条:“我们现在是时候开始思考将数据科学作为一种职业,而不是工作;作为企业文化,而不是企业议程;作为一种战略,而不是一个计谋;作为一种核心竞争力,而不是一个过程;作为一种行事方法,而不是一件要做的事情。”
最后,我们提供一些组织可能需要的识别当前成熟度的指标,以及国家走向大数据科学成熟的建议指标。
Figure 1-1. © 2015 Booz Allen Hamilton Tips for Building Data Science Capability Handbook