CSDN年度技术盛宴 “SDCC 2015中国软件开发者嘉年华” 将于2015年11月19-21日在北京召开。CSDN软件研发频道将采访一些与会讲师,谈谈他们将在会上分享的内容。
本期我们采访的讲师是美团网数据组技术专家付晴川,长期从事机器学习&数据挖掘相关工作。曾就职于百度搜索研发部负责网页/图片分析,现任职于美团技术工程部。
CSDN:请简单介绍下您和目前的工作?
付晴川: 我是付晴川,目前在美团网技术工程部数据组担任技术专家。长期致力于机器学习&数据挖掘相关工作,曾就职于百度搜索研发部负责网页/图片分析,现任职于美团技术工程部,负责用户相关的数据挖掘工作。
美团文化中有用户第一的概念,了解我们的用户至关重要,我们要做的工作就是基于各种大数据处理的方法、技术立体全方位的理解美团用户。
CSDN:你是如何走上技术这条路的?
付晴川: 读高中的时候接触计算机,对这个新鲜事物产生了浓厚的兴趣。然后本科和研究生都念的是计算机相关专业,当时在poj刷题和diy小程序,都是非常开心的事情,后来做技术就顺理成章了。
CSDN:您对算法是怎样理解的?以及您认为算法有哪些应用领域?
付晴川: 听过李开复老师的演讲《算法的力量》,也阅读过吴军老师的大作《数学之美》,不得不说算法是许多高效计算机程序的灵魂。 像查找、排序等等这样广义上讲的算法,实际上已经渗透到凡是涉及计算机程序上的几乎所有的领域了;而像机器学习/数据挖掘等等这样狭义上讲的算法,目前也越来越多的应用在电商、搜索、金融、游戏等领域中的分析、挖掘、推荐上。
CSDN:算法在美团都有哪些应用?以及如何评价算法带来的商业效果?
付晴川: 美团有团购、外卖、酒店、电影等多个产品线,每个产品线都有海量的用户以及这些用户产生的海量数据。如何高效处理这些数据,是需要算法来驱动的,目前跟算法特别是机器学习有关的应用主要有:个性化推荐/排序、风险控制、精细化运营、行业大数据据报告等等。
至于算法带来的商业效果,主要是通过离线、在线对比实测数据影响来完成,离线评测会有一些具体的指标, 比如排序问题的ndcg, 分类的问题的准确/召回等,而线上通常会A/B test考察访购率、点击率的提升幅度等等。
CSDN:算法工程师面试美团,作为美团的数据组技术专家的您有哪些建议?
付晴川: 算法工程师实际上是需要考察三个方面的:
CSDN:在这么多年的工作中您肯定使用了很多算法,再结合目前的工作,您感觉哪些算法比较重要?他们各有什么优势和劣势。
付晴川: 我这里主要说说机器学习相关的算法,像分类用我自己用的比较多的就是:SVM/LR/最大熵/以及各种基于决策树的方法;聚类主要是kmeans及其变体;回归的话主要是线性回归/Lasso/Rigde等,损失函数通常会自己调整;推荐的话尝试过ALS。
直接探讨算法本身的优劣可能意义不大,通常需要基于不同的应用场景选择不同的算法,需要考虑的维度有样本量的大小、类别是否平衡、数据规模大小(性能tradeoff)、特征数量以及稀疏情况等等,比如说,SVM/最大熵/LR同样都是分类模型,但是在CTR的应用中LR最吃香,文本分类中SVM是王者,最大熵作为最完美的模型,反而因为实现和计算的复杂性应用的比较少。
CSDN:在本次SDCC 2015大会上,您想分享的话题是?
付晴川: 本次分享的话题是机器学习在美团用户画像中的应用。主要介绍美团用户画像中的一些实践经验。
CSDN:您最期待在SDCC 2015大会上看到哪些内容?
付晴川: 其他公司的同学在机器学习数据挖掘上实践和应用的干货。
(责编/钱曙光,关注架构和算法领域,寻求报道或者投稿请发邮件qianshg@csdn.net,交流探讨可加微信qshuguang2008,备注姓名+公司+职位)
值得一提的是,由CSDN举办的 SDCC 2015中国软件开发者嘉年华 将于11月19-21日在北京举行,本次大会涵盖:新型数据库、编程语言、工具与平台、产品与设计、前端开发、算法、微信开发、架构实践、安全等九大分 论坛,届时国外知名讲师将分享所在领域的最佳实践。 【 点击这里抢票 】