【CSDN现场报道】 2015年11月19-21日,由CSDN重磅打造的“ 2015 中国软件开发者大会 ”(以下简称SDCC 2015)在北京朗丽兹西山花园酒店隆重召开。 今年是第七届,大会为期三天,除了阵容强大的全体大会外,主办方还精心筹备了九大技术专场论坛,包括:架构实践论坛、前端开发论坛、数据库实战论坛、研发管理论坛、安全技术论坛、算法实战论坛、编程语言论坛、产品与设计论坛、微信开发论坛。此外,还有五场特色活动及展览展示。
11月21日下午13:30,继《 算法实践论坛(上):网易、京东、腾讯的算法优化实践 》后,算法实践论坛在宜信大数据创新中心数据科学家 项亮的主持下继续进行。
张夏天表示,数据增长迅速,算法复杂度高,大数据时代机器学习面临着巨大的挑战,以系统的并行化硬件加速和高效的算法相结合能够有效解决这一问题。在此之中,将算法进行对比,随机决策树算法融合了多棵随机构建的决策树的预测结果来进行分类/回归,建树开销低,过程中不需要使用label信息,其计算复杂度仅随训练样本数线性增长。
图:TalkingData首席数据科学家 张夏天
关于算法实现和并行化问题,张夏天分析了两种方式:
在二值数据RDT的并行化方面,张夏天谈到,与RDT需要多棵树一样,RDH也需要使用多个不同的Hash函数来划分数据,由此带来了较高的计算开销。对此,选用了能输出长整形hash值的函数,然后用一组随机的位掩码来产生不同的hash编码,从而提高计算效率。如下图所示:
阿里巴巴搜索事业部算法专家严强(绍成)围绕“个性化算法”详解了从三年以来,阿里在双十一350.19亿、571亿、912.17亿背后的大数据创新和个性化算法系统。
图:阿里巴巴搜索事业部算法专家 严强(绍成)
严强现场引用了阿里巴巴集团CEO张勇向全体员工发出的公开信:
这次双十一的一大亮点是,我们基于大数据的无线产品和技术的创新,使得整个运营效率有了大幅度提升。在双十一期间,淘系的活跃用户得到了充分的引导和互动,得到了大量个性化的展示和推荐,事实证明了大数据的巨大威力。我们用大数据赋能了双十一,赋能了我们自己的运营能力。我们还要更上一层楼,利用大数据赋能给所有的商家,帮助他们运营好消费者,这样才能让我们在大数据时代践行“让天下没有难做的生意”的使命。
在此次双11中,阿里以个性化的电商技术平台(TPP)、能一行代码实现快速大规模CF的Match框架(eTREC),实时排序框架(Olive)形成个性化算法体系。其中,TPP算法迭代效率高,即时反馈,支持自动化部署与运维,而Olive则包含两部分:Real-time Streaming System,Online Learning。
图:双11个性化算法系统Overview
美团网数据组技术专家 付晴川发表《机器学习在美团用户画像中的应用》主题演讲,以What、Why、How开启了对于用户画像的细节解读。以其中的MT dmspa为例,统一特征提取框架,多工程师/模型自给自足、人力/计算资源冗余,在实现上特征统一提取/集中存储,支持no-coding,最终的建模周期将由3-4周下降到1-2周,人力/计算冗余估算将减少2倍。
图:美团网数据组技术专家 付晴川
在分享过程中,付晴川抛出了一个颇为有趣的关于算法工程师的段子,引出在实践中遇到的那些坑。理想中的算法工程师是“提出假设->收集数据->训练模型->解释结果”,然而事非所愿,现实中包含了不断调试、重新收集数据、收集更多数据等环节。在目标与现实效果之间,算法工程师应努力逼近而非较劲,在深度优化模型之前,充分利用数据特征,多了解模型的优缺点,选择合适的模型。
图:算法-问题及常用模型
爱奇艺视频推荐系统专家 王敏为大家带来了《爱奇艺推荐系统架构与实践》的演讲分享。爱奇艺有着1.5亿独立用户,1.9亿小时视频观看时长,11亿次视频观看次数,在这背后,爱奇艺推荐系统是如何实现个性化、相关推荐覆盖所有终端的数十种产品形态?整个爱奇艺推荐系统的底层运转和计算大量依赖于Hadoop生态系统,其推荐算法有着基于内存的数据缓存和计算,基于RDD的数据集逻辑结构,Scala简洁的基于函数式的编程体验。
图:爱奇艺视频推荐系统专家 王敏
王敏表示,一个好的推荐系统必须具备四重因素:分析处理海量数据;快速处理新增数据和实时交互;灵活加入和迭代各种推荐算法低延迟响应高QPS的推荐请求。
时趣首席科学家 王绪刚从商业和应用场景角度来分析如何利用“图计算”完成实时分析,从而“发现”数据的价值。首先,从IT到DT,从传统的以品牌为中心到以消费者为中心,数据以量化、追踪、识别、预测来更加精准、连续地实现商业化,让运营效率实现大幅提升。以会员运营为例,从事实、预测、行动三个维度进行分析,分别为:多渠道会员运营分析;流失行为预警模型,潜在消费者挖掘模型,消费者价值模型;分组内容推荐,个性化推送,智能客服。
图:时趣首席科学家 王绪刚
但是,大数据营销存在数据量、多样性、实时性、关联性等技术挑战,需要一套统一的架构来满足大数据量的实时关联计算,由此,图计算引擎应运而生。从场景出发,构建用户画像,用于精准广告投放、潜在客户挖掘、流失会员激活等,并通过不同组合进行相应算法,比如亲密度算法,即根据不同的路径和权重,计算从节点A出发到达其他直接节点的概率,如下图所示:
更多精彩内容,请关注新浪微博:@CSDN、图文直播专题: 2015中国软件开发者大会 。