作者:微软亚洲研究院研究员 袁进辉
WWW 2015 ( 24th International Conference of World Wide Web )大会于 2015 年 5 月 18 日至 22 日在文艺复兴的摇篮 -- 意大利佛罗伦萨举行。我们微软亚洲研究院 人工智能( Artificial Intelligence (AI) Group )组与卡内基梅隆大学 ( Carnegie Mellon University ,CMU )的 邢波 (Eric P. Xing) 教授合作的论文“ LightLDA ” 被本届大会录用,我有幸作为代表参加本届 WWW 大会并介绍我们的研究成果,也因此亲身经历了这样一个称得上“神奇”的会议。
今年大会的地点设在了佛罗伦萨市中心的巴索古垒。这座古堡建于 1534 年,是典型的文艺复兴式建筑,原本是美第奇家族为了保卫城邦而建设的防御工事,经现代改装后成为很别致的会议展览场所。程序委员会主席则是来自 马克斯 - 普朗克研究 所( Max Planck Institute for Software Systems )的 Krishna Gummadi 和伊利诺伊大学厄巴纳 - 香槟分校( UIUC-- University of Illinois at Urbana-Champaign ) 的 Chengxiang Zhai 。
面面俱到的 Web 界旗舰会议
借用大会主席在大会闭幕式上罗列的一些统计数字来对 WWW 2015 有一个全貌的认识。
今年的大会除主会外,还包含一些 Workshop (研讨会)和 Tutorials (教程)等序列,各个序列投稿和录用比例、大会覆盖的主题及对应的投稿数可参见上表。
众所周知, WWW 大会的一个特点就是主题多样,所收录的论文几乎覆盖与 Web 相关的方方面面,而每个主题都有其所对应的顶级国际会议,譬如 KDD, SIGIR, CHI, ICML, STOC, EC 等。如此丰富多样的主题也让参会人员更容易接触到一些新奇或迥然不同的思想,从而更有利于做出跨学科的研究成果。难得的是, WWW 在主题如此 “ 分散 ” 的情况下投稿众多,但大会录用的稿件仍保持很高水平的质量。可以说,能被 WWW 录用的文章几乎一定能被其他国际会议录用。而从 Research Track 的录用率来说, WWW 仍是一个竞争比较激烈的国际会议。
万维网自诞生之日起,已经发生了翻天覆地的变化,信息展现方式从静态到动态,从无结构化到有结构的组织,也变得越来越能为我们所用。 WWW 作为万维网领域的旗舰会议,也在随着历史的发展趋势不断演进着、关注着新颖的潮流,同时始终致力于根本性问题。而工业界对 WWW 也是一如既往的重视,从大会赞助商和会场的展台来看,几乎所有互联网巨头都在 WWW 会场设立了展台。
日渐壮大的中国研究力量
根据大会组织方的统计数字,今年参加会议的人数创历史新高,达 1567 人。下图展示了各国参会人数所占的比例。令人欣慰的是,中国位列前三,仅排在美国和主办国意大利之后。
(值得一提的是,上图是我使用 Microsoft Office Lens 拍摄并自动校正视角后得到的。当我用这个 APP 拍照时,还引起旁边同行的兴趣,问我使用的是什么 APP )
大会主席还给出了更细致的国别统计数字,包括各国投稿及被录用稿件的数量,以及各国程序委员会委员的数量,中国都位列前三。由此可见,中国大陆的研究人员已经形成了一股不可忽视的力量。不过,在研读论文的过程中,还是能感觉到一些差距,来自中国的论文多数是研究比较经典或较成熟的问题,开创性、求新求异上还不够好;与此相反,欧美的研究成果通常在创意上更胜一筹,在选题上有一种不受约束、挥洒自如地感觉。
“经得起时间考验”的论文
除了往届大会上惯有的最佳论文奖、最佳学生论文奖(第一作者必须是博士生或博士后),本届 WWW 大会还添加了 一个“最经得起时间考验奖” ( Test of Time Award ),颁发给经时间证明具有深远历史影响的论文。
各类获奖论文如下:
最佳论文奖:基于贝叶斯方法的行为踪迹假设比较 ( HypTrails: A Bayesian Approach for Comparing Hypotheses about Human Trails )。
最佳学生论文奖:秘密,谎言和账户恢复: Google 在私人知识问题使用中获取的经验( Secrets, lies, and account recovery: Lessons from the use of personal knowledge questions at Google )。
而“最经得起时间考验奖”毫无争议地颁发给了 Google 创始人 Larry Page 和 Sergey Brin 发表在第七届 WWW 上关于 Google 搜索引擎的开创性工作—— “ 大规模超文本网络搜索引擎解析 ” ( The anatomy of a large-scale hypertextual web search engine . Proceedings of the Seventh International Web Conference (WWW 98), 1998. )。
对于这样重量级的工作,是否得奖已不再重要,相反, WWW 曾发表过这样的文章且能把这个奖项颁发给它无疑是 WWW 自己的荣耀。其它获得最佳论文奖提名的 6 篇论文可参见: http://www.www2015.it/award-papers/
与阅读获奖论文相比,评奖过程更有意思。首先由领域主席提名,或者大会主席选择评分较高的论文,最终大会主席根据论文的原创性和可能对 WWW 产生较大影响的论文进行评选。原创性和潜在的影响力是最关键的因素,我理解,原创性更好判断一些,而潜在影响力则很难预测。假如你是 WWW 的大会主席,负责挑选出最可能产生巨大影响的论文,你会选哪一个呢?
训练主题模型的“最快”算法
今年的大会关于“主题模型”的论文有好几篇,我们的论文研究—— LightLDA: 基于中小型计算集群的大规模主题模型( LightLDA: Big Topic Models on Modest Computer Clusters )是其中比较醒目的。
LightLDA 论文报告了我们设计的一种训练主题模型的新算法。这个算法相对于已有 LDA 学习算法在效率上有一个数量级的提高,每个词的 Gibbs 采样复杂度达到了均摊 O(1) ,是首个达到单个词常数复杂度的 Gibbs 采样算法,堪称当今“最快的算法”。而且基于 CMU 邢波教授组的 Petuum 参数服务器,我们实现了该算法的分布式版本,可以在数十台机器上完成比以往成百上千台机器还要大很多的训练任务。 LightLDA 首次在中小规模集群上实现了对 Web-scale 数据的学习,这无论对 Web 应用还是分布式机器学习的研究都带来了新的可能性。
从应用角度上讲, LightLDA 提供了一种超大规模矩阵分解的轻量级方案。虽然 LDA 已经是一个比较经典的问题,但解决 Web-scale 的训练问题也是一种创新,这种随机采样的算法特别是相对于梯度下降算法来做矩阵分解通信开销更小,期待 LightLDA 在工业级推荐系统 / 用户画像里可以得到更多应用。
除了 LightLDA 外,其它几篇搜索引擎的“排序学习”相关论文也各自提出了一些新颖的思路。如来自俄罗斯的搜索服务提供商 Yandex 的论文“个性化网络搜索中对相关性标签赋权的优化框架”( An Optimization Framework for Weighting Implicit Relevance Labels for Personalized Web Search ),讨论了在排序学习( Learning to Rank )框架中,用户反馈不再是二值的点 (click) 或不点 (not click) ,而是引入更多隐式反馈信息,形成多个层级更加精确的标注信息,感觉很有新意。 Yandex 的工作通常都是在传统问题上深耕细作,能有创意想法的突破,也着实值得敬佩。
另外论文“利用多臂赌博机模型从产品搜索排序中收集额外反馈信息”( Gathering Additional Feedback on Search Results by Multi-Armed Bandits with Respect to Production Ranking )把搜索广告中“求精和探索”( Exploitation and Exploration )的思路引入搜索排序学习中,从而使得更多页面能收集到用户的反馈信息,比单纯的“求精”( Exploitation )思路要更好。该论文也入选了今年最佳论文的候选。
潮流前沿的“神奇”会议
之所以一直在说 WWW 是一个神奇的会议,是因为它带给我的感受与其它学术会议的风格不太相同。首先, WWW 的主题多样,每个主题下面有十数篇文章,虽然都和 Web 相关,但跨度很大。其次, WWW 的另一个特点是论文的主题都很新奇,经常能看到一些论文在做前人从来没做过的事情。最后, WWW 不是纯理工色彩,还有一些人文趣味在里面,譬如有不少语言学和社会学的文章。与 WWW 同时举行的一些研讨会也是潮味十足,今年的会议上就能看到关于创业、风投、医疗健康、伦理和大数据等相关的话题。
本届 WWW 上有一大批关于社交网络和图算法的论文,应该是很有代表性的。比如,为保护儿童健康成长,通常人们不鼓励儿童上社交媒体。但家长们却总是乐于在社交媒体上发布自己孩子的信息,也就是我们通常所说的 “ 晒娃 ” 。 “ 大人讲话,小孩儿别插嘴:当父母伤害儿童的在线隐私时 ” ( Children Seen But Not Heard: When Parents Compromise Children ’ s Online Privacy ) 中的研究则表明,晒娃有风险,家长须谨慎——根据家长在 Facebook 上发布的关于孩子的蛛丝马迹,就可以给小朋友建立完整的信息“画像”,使得隐私全面泄露,带来潜在风险。
而 “ 事件与争端:骇人听闻的新闻事件对人们信息获取行为的影响 ” ( Events and Controversies: Influences of a Shocking News Event on Information Seeking ) 则以人们对“美国控枪”问题的不同立场为例,说明搜索引擎虽然方便人们获取更全面的信息,但并不会让人更加开放包容——人们更喜欢去搜索支持自己已有观点的信息,并不愿意去挑战或拓展我们世界观的信息。这项结果同样来自卡内基梅隆大学与 微软研究院 的合作。
“ 落后区域的网络访问流量初探 ” ( A First Look at Tribal Web Traffic ) 这篇文章关注的内容则并不前沿,也不主流,而是把目光放在了美国落后或欠发达地区的网络及社交媒体的使用状况。即使像美国这样的发达国家,仍有一些地区网络基础设施不完备,人们使用网络服务并不便利。研究发现,落后闭塞地区的人们也有对网络社交娱乐的需求,而且表现出一些独特的规律,譬如本地化的内容参与度更高,参与活跃度通常会持续更长时间等。
令我印象深刻的是一项为盲人服务的研究“易于(盲人)使用的在线楼层平面图”( Accessible On-Line Floor Plans ) 。人们逛商场或博物馆时,通常在入口或关键地点能看到房间户型图,方便用户快速找到目的地的路径,但这些设施并不能为盲人服务。这篇文章便针对这个问题,提出了一种自动把一张房间户型图转换成盲人可用的导航图的方法并且开发出了 App 。这应该算是一个很小众的需求,并不具有很高的商业价值,但作者如此细致周到的考虑着实令人感动。
更“小资”的还有自动给城市里每一条街道是否适合漫步进行打分的研究—— “ 在惬意街道漫步的数字式生活 ” ( The Digital Life of Walkable Streets ) 。它考虑安全、优美、惬意等因素,研究成果可用于酒店预订服务,市区导航推荐路线等场景,颇具生活味道,然而我想到的则是更适合恋爱中的人们。
更多有意思的论文你都可以在网上的 会议论文集 里免费看到全文。
“ 全,新,奇,深 ” 是我对 WWW 2015 大会的定义。主题覆盖全面,追求原创,标新立异,不局限于求解问题的具体技术,还经常有一些对问题本源的考察和思考,具有“术”和“道”的均衡,个人非常欣赏这种风格的国际会议。期待未来看到更多新奇的研究可以帮助我们的生活和工作。
相关阅读
改变生活的移动计算 —— 感受 MobiSys 2015
严谨与特色并行—— WSDM 2015 大会见闻记
CHI 2015 大会:着眼于更加个性化的人机交互
欢迎关注
微软亚洲研究院官方网站: http://www.msra.cn
微软亚洲研究院人人网主页: http://page.renren.com/600674137
微软亚洲研究院微博: http://t.sina.com.cn/msra
微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码 :