【CSDN现场报道】 2015年11月19-21日,由CSDN重磅打造的“ 2015 中国软件开发者大会 ”(以下简称SDCC 2015)在北京朗丽兹西山花园酒店隆重召开。 今年是第七届,大会为期三天,除了阵容强大的全体大会外,主办方还精心筹备了九大技术专场论坛,包括:架构实践论坛、前端开发论坛、数据库实战论坛、研发管理论坛、安全技术论坛、算法实战论坛、编程语言论坛、产品与设计论坛、微信开发论坛。此外,还有五场特色活动及展览展示。
图:算法实践论坛现场
SDCC大会第三天上午9:30,算法实践论坛由宜信大数据创新中心数据科学家 项亮担任主持,在对所有演讲嘉宾进行介绍后,本次论坛正式开始。
图:宜信大数据创新中心数据科学家 项亮
9:40 网易技术副总监 鞠奇围绕Query智能改写在搜索中的应用、Query同义词挖掘在搜索广告中的应用分享了其在Query优化方面的实践经验。现场详解如何通过基于搜索用户日志挖掘、基于Query短语权重的相似性纠错等Query优化手段实现RPM上升,“精确”召回更多广告,提升单次点击价格。
图:网易技术副总监 鞠奇
以网上商城搜索查询为例,当广告主在广告平台投递广告后,用户在网上商城通过关键词搜索购买连衣裙,以“query1:连衣裙”实现“原价”的精确召回,以“query2:长款连衣裙”实现扩展召回,但“query 3:连衣裙女”又当如何解决?到这里就需要结合自然语言处理(NLP)、语义主题模型(LDA)、深度学习(word2Vec)来解决同义词条。
图:同义词条
京东商城搜索推荐部总监 刘思喆从京东推荐机制、通用模型、排序预测、监控四个方面详细剖析了京东商城在推荐系统应用方面的实践。推荐系统遍布用户网购的各个环节,其价值在于挖掘用户的潜在购买需求,缩短用户到商品的距离,为用户在需求不明确时提供参考,满足用户的好奇心。
图:京东商城搜索推荐部总监 刘思喆
京东推荐算法优化以数据分析为工具,提升数据的质量和覆盖度,测试不同算法在不同数据源的效果,提高召回模型的质量,增加结果辨识度,并以用户反馈为依据,对推荐结果重排序,增加数据的更新频率。
图:产品词关系全景图
刘思喆表示,推荐系统是完整的工程实现,算法、工程二者缺一不可,用户行为和商业目标的主要连接是数据,数据的理解高于算法的理解,简单模型配以优质有效数据有更加好的效果,而算法优化是逐步迭代的过程,需要更多的是灵感。
腾讯广点通核心工程师 严浩发表《Peacock: 大规模主题模型及其在腾讯业务中的应用》主题演讲,详解LDA Model Training的四个步骤:随机初始化每个词的topic;持续重新采样每个topic,更新计数;重复采样,直到模型收敛。
图:腾讯广点通核心工程师 严浩
在提升Gibbs Sampling速度、实现支持大数据大模型、调参优化模型质量方面,Peacock给出了比常见大规模LDA模型更为完善的方案,首先,基于Go语言实现,使用SparseLDA算法,矩阵分块并行计算,可以支持10亿 x 1亿的矩阵分解,并每轮迭代对超参数做优化,智能训练topics个数。
图:Peacock大规模矩阵分解
更多精彩内容,请关注新浪微博:@CSDN、图文直播专题: 2015中国软件开发者大会 。