Airbnb公司的数据科学领导Riley Newman最近发表了一篇文章,详细描述了加利福尼亚创业公司是如何定义和使用数据科学的。他解释说,数据其实就是用户的声音,而数据科学就是对用户行为的最科学解释。此外,他还详细介绍了一些对数据科学规模化很重要的举措,包括与其他团队数据科学家建立直接的合作关系,将数据科学整合进每一个业务流程,并建立一个快速运行且稳定性高的数据基础设施。
Airbnb在成立初期,其创始人Brian Chesky,Joe Gebbia和Nathan Blecharczyk常常会亲自与客户和托管商会面,讨论如何改善服务。直至现在公司领导层还是会这么做,但公司现在每年都有3000万的客户,和每一个客户保持像之前那样面对面交流已经不现实了。取而代之的是,Airbnb通过预订平台记录下客户的各种事件和行为,并对这些数据进行分析来了解用户喜欢什么和不喜欢什么。通过这种方式的反馈对于决策“社区成长,产品开发决策、资源优化”等问题是特别有价值的。但要想达到这一目的,首先要对数据进行破译,然后请数据科学家将其翻译成更适合决策的语言。
虽然这和公司历史有着强相关联系,但这种将数据比作“客户声音”和将数据科学家比作“翻译家”的设想很难长期保持下去,尤其是在公司快速增长期间。这篇文章中所描述的许多倡议中,有三个特别突出。
首先,数据科学家不应该被视为被动的数据收集人,而应该直接与其它业务职能进行互动,不仅要充分理解要解决的问题,还要确保决策者能直观的理解他们的分析结果。因此,数据科学家的所作所为将直接影响公司的决策。Airbnb数据科学团队是由不同子团队协作构成的,合作伙伴可以直接与工程师,设计师,产品经理进行交流互动。
其次,数据和数据科学应该出现在决策过程中的每一个阶段。Airbnb通常将整个过程分为4个阶段:学习、计划、测试和评估;他们每个人都得益于科学数据的不同因素。Rilley说,“越是严格管理,Airbnb的脚步就越平稳,公司里的人也就更具有影响力”。
最后,数据科学应该依赖于快速和稳定的基础设施,以减少在数据查询上所花费的时间,并赋予非科学家回答基础数据问题得机会。这在整个业务功能里推进民主化使用数据是极其有用的。
InfoQ随后采访了Riley,就Airbnb数据科学团队给出了一些见解。
Riley:其实对于人才的招募并没有什么标准的模版,而我们更期待那些具备广泛工作背景且有成功特质的人。具有成功特质的人往往具备这些特性:好奇心,专注细节,高效沟通。当然,了解统计学和Python也很重要。
Riley:根据多年的经验积累,我们在面试过程会尽量将候选人或员工的负面因素最大化,以避免潜在的问题。目前的招聘过程主要是给候选人一些数据,一个宽泛的问题,然后看到他们如何解决。我们会让候选人加入到我们的团队,由团队成员集体根据候选人的问题解决能力、表达能力和相处能力来做评估。优秀的候选人一定会通过具有挑战的项目表现出其出众的特质。
Riley:大多数团队会在如下工具上花很多时间:利用Hive和Presto(又名SQL)从我们的Hadoop集群中提取数据,再用R和Python分析这些数据,用Tableau实施可视化处理。那些只知道SQL和Python的人想要插足数据科学领域,这能奉劝他们还嫩了点!
Riley:其实这不是一两句话就能说清楚的,根据我们已上线的产品经验来看,我还需要收集更多的数据,并将这些数据转化为可行性较高的预测方案,要对商业决策有借鉴价值。越是接近并加强反馈回路,越是对我们有利。
Rilley说,回顾在Airbnb工作的头五年,评估数据科学的影响力是一件很困难的事,但不久看到强大的基础设施之后,对事件影响力的评估能力不断增加,再加上对数据的系统化利用,使得各种决策的制定都是符合公司发展的。
查看英文原文: Riley Newman on How Airbnb Uses Data Science
感谢艾利特对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群 (已满),InfoQ读者交流群(#2) )。