作者:微软亚洲研究院实习生 王英子
南半球最大城市和数据挖掘界顶级会议的浪漫碰撞
悉尼,作为澳大利亚第一大城市及新南威尔士州首府,澳大利亚的经济、金融、航运和旅游中心,同时还是南半球最大的城市和重要的港口,有着怡人的气候、诸多美丽的海港、醉人的蓝天和浪漫的日出日落。而作为一个移民城市,悉尼多元的文化又让它显得格外包容万象,富有生命力。八月的悉尼正处于冬季,少了一些喧嚣,多了一份宁静,但 8 月 10 号至 13 号举行的 KDD 2015 大会则为悉尼带来了另一种活力:来自学术界独有的激情和美好。
KDD 大会(国际数据挖掘与知识发现大会, ACM SIGKDDConference on Knowledge Discovery and Data Mining, 简称 KDD )是数据挖掘领域的顶级国际会议,由 ACM ( Association of Computing Machinery ,计算机学会)的数据挖掘及知识发现专委会( SIGKDD )负责协调筹办。每年吸引全球数据挖掘领域的学者为之疯狂的 KDD 今年也收获颇丰,共吸引了 1008 篇投稿,其中研究论文 819 篇,最终有 160 篇录用;政府和工业届应用论文 189 篇,录用 68 篇,这也是过去 15 年中录取量最高的一届。工业界投稿中, Microsoft 和 LinkedIn 以很大的优势领先于其他企业。 KDD 2015 会议由 1 天的专题研讨会( Tutorials 和 Workshops )和 3 天的主会组成。今年是 KDD 第三次离开美国,同时也是第一次来到南半球,不可避免地,和美丽的悉尼碰撞出浪漫多彩的火花。
大牛聚集、数据狂舞的饕餮盛宴
作为一场数据挖掘领域的顶级盛宴,大会吸引了来自世界各地的业界“大牛”参与,并给出了 4 个主题报告( Keynote ), 11 个邀请报告( Invited Talk ), 14 个专题研讨会( Workshop ), 12 个教学报告会( Tutorial ),以及 27 场展览会。
今年的 4 个主题报告,邀请了学术界和工业界四位杰出数据科学家,他们分别来自计算机科学领域、经济学领域或是交叉领域。第一位报告人是微软的杰出科学家 RonnyKohavi ,他分享了关于在线控制实验 A/B 测试的实践经验和例子。 RonnyKohavi 于 2005 年加入微软并成立实验平台组。 Ronny 在这里给出 A/B 测试的介绍和一些 Bing 的在线 A/B 测试的例子,也分享了一些关于大规模在线 A/B 测试的经验。第二位报告人是悉尼大学的 Hugh Durrant-Whyte 教授,他指出机器学习算法在自然科学领域的重要性,并且举出了一些已经探索出的将机器学习方法应用到自然科学领域的方法,诸如应用到生物学、地理学和生态学等。第三位是 Coursera 的总裁和联合创始人 Daphne Koller ,她曾经是斯坦福大学的教授,她强调在线教育为跨文化互动学习以及协同学习等提供了大量的机遇。第四位报告人是斯坦福大学商学院的 Sunsan Athey ,她指出机器学习的主要目的是预测,因果推论的主要目的是用随机试验或者观察学习的方法估计对照因素对结果的影响力。
今年的邀请报告也都很精彩,其中给我留下深刻印象的是 来自香港科技大学的杨强教授的报告,他主要介绍了移动社交网络中用户建模方面的挑战和经验。他强调用户建模主要包含三个方面,用户是谁、现在的情况、未来要做什么,我们需要从多媒体数据中去了解用户,建立不同的模型,如个人模型、关系模型等,去满足不同的需求,如进行推荐、预测等。
会议方给大家提供了充足的交流平台,也给予了每篇论文充分展示的机会,不仅有 20 分钟的口头报告时间,还有第二天晚上长达 3 个小时的展板( poster )展示环节。会议的报告场场火爆,来晚的同学只能站着听报告,站着记笔记, poster 环节更是人山人海,每个展示者都讲到口干舌燥,小小的展台一晚上有十几拨人驻足、交流,到处碰撞着知识的火花。
今年的研究热点丰富多彩,社交网络与图挖掘、机器学习与数据挖掘等课题近些年来一直保持很高的热度,此次大会也有所体现,比如社交网络与图挖掘的相关论文口头报告开设了 4 个分会场,并且今年获得最佳论文奖及最佳学生论文奖的两篇论文均出自该主题。大数据研究依然是一个热点,不论是用随机梯度蒙特卡罗法求解大规模分布式贝叶斯矩阵分解,还是对随机对偶坐标上升法( SDCA )的提速,都是有新意并且有实用价值的课题。而推荐算法与系统的研究也吸引着大批的学者,给人留下深刻印象的是来自清华大学的关于如何用贝叶斯泊松矩阵分解模型来解决局部事件推荐的冷启动问题,以及一些商品和地点的推荐问题,这些问题的解决方法在 传统的算法上都有了新的突破 。流数据挖掘、城市计算等领域也冉冉升起,在本届会议中吸引了大量的投稿。
中国的很多学者在数据挖掘领域也有着亮眼的表现。中国大陆的学者们踊跃投稿,来自清华大学、北京大学、中国科学技术大学、上海交通大学、西南交通大学等科研院校的学者作为第一作者的投稿有 14 篇,此外还有大量海外留学的中国学生,以及大量诸如微软亚洲研究院的科研机构中的中国学者投稿。
风起云涌间持续耀眼的微软秀台
作为目前世界顶尖的研究中心之一,微软在本次大会上表现格外亮眼。 Ronny Kohavi 的主题报告给了大家关于 A/B 测试的经验和思考,微软的 Azure 团队展示了 loT 服务器的出色表现,并使用简单的代码来体现出服务器的易操作性能。
微软研究院在今年的 KDD 中发表了 22 篇高质量论文,比去年增加了 6 篇,这在业内获得了很高的评价。论文包括社交网络、 TopicModels 、大数据挖掘、 web 挖掘、应用和推荐系统等方向。从理论到应用,这些论文也涉及到了多个新兴应用领域,比如空气质量预测、网络嵌入模型、分布式深度学习系统和服务器问题的检测与诊断等,可以说涵盖了数据挖掘领域的方方面面。
我们团队的论文“ Regularity and Conformity: Location Prediction Using Heterogeneous Mobility Data ”(《规律性和从众性:使用多种移动数据进行位置预测》)就是一篇更加侧重应用的论文。与以往使用单一移动数据来挖掘用户的单一行为模式进行位置预测的方法不同,我们使用了多种移动数据(微博签到、公交车轨迹数据、出租车轨迹数据),并且在一个模型中同时挖掘出用户移动的规律性和从众行,从而进行位置预测:使用时间相关的矩阵分解方法探索用户的从众性,通过和某个用户相似的人的行为数据来帮助预测该用户的行为,使用 sparse group lasso 模型挖掘用户行为的时空规律性,通过某个用户的历史移动规律来预测未来的移动行为。从应用的角度来看,这篇论文提供了 一个结合多种行为数据的可行方法,具有很好的可扩展性,并且提高了位置预测准确度,也提高了基于位置预测的很多应用可实施性,如商场推荐、个人电子助手等。作为我的第一篇 KDD 论文,不论是在写论文的过程中还是在参加会议的过程中都得到了很多启发和成长。回忆起从去年 10 月开始准备论文的日子,从一开始的拜读别人的 KDD 论文,体会别人缜密的逻辑和漂亮的模型,到在导师的指导中慢慢有了自己的想法,不断地改进实验和思路,体会研究和创新的乐趣,再到连今年春节的几天也在改论文和做实验中度过,得知论文被录用的时候,感觉所有辛苦都是值得的。在展示 poster 的时候,看到别人在自己的海报前驻足和充满兴趣的眼神,浑身充满力量。口头报告结束后,看到大家意犹未尽地围过来讨论论文的内容,看到分会主席伸出手来对我说“ good job ”,那种成就感真的无与伦比,努力,然后被认可,我想这就是科研的魅力。
明年 KDD 将回到美国旧金山,并且将会有一些变化: Industryand government track 将更改为 Applied data science track ,这将扩大论文的接受范围,不再局限于工业界的投稿,所有关于数据挖掘算法应用的论文都将参与竞争,这将促进数据科学在实际应用中的推广。 Bing Liu 教授对数据挖掘领域进行了展望,在对微软的智能机器人小冰给出很好的评价的同时,提出了“个人助手和自动化聊天模式”将成为 KDD 的新趋势。 相信微软研究院将在未来的 KDD 大会中绽放更美丽的烟火,让我们共同期待。
附: 微软研究院在 KDD 2015 中发布的 22 篇论文下载链接
史无前例的KDD 2014大会记
WWW 2015:一个神奇的会议
改变生活的移动计算——感受 MobiSys 2015
微软亚洲研究院官方网站:http://www.msra.cn
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra
微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码: