转载

Microsoft Academic Search vs. Google Scholar

在上一篇文章, 我试图从全局的角度分析一个我不甚了解的系统, 效果不佳. 吸取教训, 靠谱的 approach 是: 从我自己的体验出发, 加上对我周围的用户的观察,写一篇不一味追求大而全的文章.

就我的观察, Microsoft Academic Search (MAS) 目前的主要用户群并非是已经在学术圈里的研究人员, 而是那些仍处在本科阶段, 即将进入学术圈的大学生. 我认为MAS的许多功能, 都是在为对学术研究有兴趣的学生们提供辅助, 帮助他们探索这个"神秘而陌生"的圈子. 而 Google Scholar (GS) 的主要用户群是已经在学术界做研究的研究生和学者, 它可以作为一个强大的辅助研究工具, 帮助研究人员更好得检索文献. 下面, 我会提出若干证据来支持我的观点.

首先谈谈MAS提供的功能. 根据MAS的 帮助页面 , 除了搜索外, MAS提供以下功能:

  • Call for Papers(CFP)
  • Exploring scholars' cooperating network
  • Embedding publications in your own web page
  • View paper referencing information
  • Visualization of publication trends of domains in computer science
  • Academic Map
  • Organization Comparison
  • Ranking of authors, publications, journals, organizations, conferences and keywords

给这些功能分个类的话, Exploring scholars' cooperating network, Academic Map, Organization Comparisons算是一类. Exploring scholars' cooperating network能根据从文献中共同作者学习的数据, 用图形显示出和学者关系紧密的人; 可以根据引用的关系, 找出谁引用某名学者的文章较多, 也可以找出两名学者间的关系路径. Academic Map, Organization Comparisons都是对研究机构的分析, 可以在地图上查看在某地区的研究机构, 地图上还会用不同颜色和大小的标记来现实不同规模的研究机构. 也可以在两个研究机构间比较, 分别列出在两个机构工作的学者,列出两个机构发表的文章的公共关键词和各自的关键词. 总之, 它们都能让新手熟悉圈子里有哪些人, 哪些机构.

Call for Papers(CFP), Visualization of publication trends of domains in computer science, Ranking算是一类. 对研究还不甚熟悉的同学, CFP可以帮助他们了解领域内有哪些会议, 提醒他们记得按时提交paper. Ranking 是对作者, 文献, 期刊, 研究机构, 会议和关键词的排名. 对作者, 文献, 研究机构和关键词的排名依据是被引用次数; 对期刊和会议的排名依据不明. 在排名时可以选择领域, 子领域和时间段(近5年, 近10年和不限时间). Visualization publication trends是根据领域的文献多少绘制的图形, 可以绘制文献的绝对数量图和相对数量(百分比)图. 对研究新手来说, 这也是帮助他们了解所研究领域的一条捷径.

View paper referencing information自成一类, 它能帮用户在找到论文时还能看到引用它的文章的上下文, 有点儿类似Blog系统里的Callback功能, 可以让用户在选择文献阅读时有了更多的参考.

而Embedding publications in your own web page和其他的都不是一类. 这个功能可以生成代码, 将某位学者的publication列表嵌入网页中, 不仅可以显示自己的publication, 还可以在有新发表作品时更新. 我认为这个功能可以为那些不擅长制作自己的个人主页的学者带来方便.

虽然MAS提供了这么多附加功能, 但在搜索上, 它却做得比一般的搜索引擎都要弱. 虽然MAS提供了限制搜索结果领域的功能, 但MAS作为学术搜索引擎, 高级搜索却并不高级. 这个我在后文还会和Google Scholar做对比分析.

再看看Google Scholar(GS)的功能. GS除了搜索外, 提供了以下这些功能:

  • Email Alert
  • Local library links
  • Google Scholar Citations
  • Search within citing articles

这几个功能各有特色, 下面简要介绍一下:

Email Alert可以将符合某搜索条件的最新搜索结果发送到用户的邮箱, 很多商业数据库也有类似的功能, 这可以帮助用户掌握最新的学术动态.

Local library links可以让你在校园网中使用SG搜索时, 可以显示搜索结果在学校图书馆已购买的电子资源中对应的链接. 这个功能对于学校中的研究人员十分方便, 省去了记下文献名称并重新在本地图书馆搜索的时间. 而且它也提高了学校所购置的电子资源的利用率. 西北大学(Northwestern University)就是参与这个 Library Support Program 计划的高校之一, 这里有它们的 故事 . 我采访过在University of Texas 读Master的学长, 她也表示这是GS中她最喜欢的功能之一. 据我所知, 高校图书馆每年获得的经费中, 很大一部分都被用于购置各种商业数据库. 而这些数据库往往没有一个统一的搜索入口, 想要跨库检索十分麻烦. GS的这个功能无疑能让这些钱花得更值.

Google Scholar Citations 是几周前刚推出的功能. 根据 帮助页面 的说法, 这个功能目前仍在小范围测试中, 现在只有少数人有profile页面(比如那位十分传奇的物理学家 Richard Feynman , 插一句题外话, 偷偷感谢某位送我《别闹了,费曼先生》的老师), 测试结束后将开放给公众使用. 这个功能和MAS的作者页面有些类似, 能够显示作者的个人信息, publication列表, 引文统计, H-index, 还有"同事(colleagues)"列表. 开放之后, 用户可以建立自己的页面(profile), 添加或删除publication列表中的条目, 可以选择是否公开自己的页面. 这项服务最终将变成什么样, 还得拭目以待.

Search within citing articles能让用户在某篇论文的引文中搜索, 可以算是搜索功能的扩展. 这和MAS的View paper referencing information不大相同—-MAS是让你看到引用的上下文, GS是让你在引文的全文中搜索.

从上面的介绍可以看出, MAS的特色功能大多都是为那些将入或初入学术界的新人准备的, 它们能引导新人熟悉这个学术圈子. 而除了最新的这个Google Scholar Citations, Google的功能大都是围绕搜索结果展开的(我认为这个更新很可能是因为MS的MAS有对应的功能, 因此Google才更新的). 我认为之所以如此, 是因为GS本来就是一个搜索引擎, 自然会以搜索功能为核心组织附加功能, 其目的就是为了增强搜索功能, 改进搜索体验. 通过这几年的运营, 由于其搜索功能的强大, GS在学术搜索领域的用户认知度也越来越高. 我在对几位Master在读/已毕业的学长的访谈中发现, 他们都在学术研究中经常使用GS, 而很少有人使用MAS, 有人甚至是第一次听说这个搜索引擎.

可是半个月前由 MSRA的renren帐号 发布的一条状态"有些同学要飞跃重洋,到世界一流学校做研究,学校要怎么选择呢?如何综合考虑地点/气候、学科/牛人…微软学术搜索推出了一个新功能,可以在地图上显示学校/研究所的论文发布情况,还可深入挖掘学校有哪些学科牛人,该牛人都有啥学术贡献。一揽子解决套瓷前的信息准备问题。"却得到了广泛的转载. 虽然由于renren不提供公共主页中的状态转发数统计, 但我在我的新鲜事列表中看到了不少转发该状态的好友, 他们大多都是准备出国读研的同学. 这也符合我之前的推断.

再说说另一个理由, 虽然都是学术搜索引擎, 但MAS和GS的高级搜索功能不是一个档次的. MAS的高级搜索虽然支持根据文章的领域, 作者, 会议, 期刊, 机构, 年份, DOI等域的值来检索, 但它只支持查找关键词的AND操作, 不支持OR和NOT操作. 这使得它接受搜索表达式的表达能力有限, 例如若是想要查找"由作者A或作者B发表的文章"便无能为力了. 但GS的高级搜索支持用"with all of the words", "with the exact phrase", "with at least one of the words", "without the words", "where my words occur"来修饰关键词搜索, 支持根据作者, 发表的期刊或会议, 发表的年代来检索, 也可以将搜索结果限制在7个预先划定的领域中. 关键是, 所有的域都支持用AND, OR和NOT连接关键词. 显然, GS的高级搜索功能比MAS的强大许多.

作为学术搜索引擎, 用户对搜索结果的限制往往比普通用户多, 因此高级搜索功能的缺失使MAS在和GS的竞争中少了些许底气.

最后说说MAS搜索结果质量的问题. 虽然MAS的数据库大小仍然在扩张, 直接将它的数据库索引的论文数量和GS的做比较不太合理, 但数据库的不够完整会导致对学者, 学术机构的ranking不够准确. 如前所述, MAS的许多排名都是基于引文数来决定的, 学者的H-index, G-index和引文数也有直接的关系. 不能较完整地统计引文数就会导致这些排名不够准确, 也就使得这些独有的功能失去了意义.

我试着在MAS和GS里选取了一些论文来测试, 发现对于我测试的所有文献, MAS统计的引文数均明显少于GS. 测试的数据如下:

Publication

MAS

GS

Emergence

of scaling in random networks (2007)

2362 9241

Neural

Networks and Physical Systems with Emergent Collective

Computational Abilities (2006)

1294 9241

Compressed

sensing (2006)

1080 2938

Algebra

and Geometry (2006)

939 可检索 , 无引文数

Pattern

Recognition and Machine Learning (2007)

881 4559

Fast

Pattern Matching in Strings (1977)

684 2035

A note

on two problems in connexion with graphs (1959)

137+53+35 7874+1+39

其中, 前5篇为MAS上排在Computer Science近五年引用数最高的前5名, Fast Pattern Matching in Strings 是提出 KMP 算法的经典文章, A note on two problems in connexion with graphs 是提出 Dijkstra 算法的经典文章. 这组测试既选择了最新的文章, 也选择了经典的文章, 在年份上的跨度达到了48年. 从结果中可以看到, 对于测试的几乎所有文章, MAS统计的引文数量都明显少于GS. 这说明MAS的数据库覆盖的面不够广, 或者是在抽取引用文献并统计引用基数的算法不如GS完善.

而且, MAS中排在Computer Science近五年引用数最高的 Emergence of scaling in random networks 在1999年就发表在Science上了, 而 MAS的页面 中显示它在2007年才被发表. 这也说明MAS的数据库中有不准确的地方.

从这个小小的测试中就可以看出, MAS数据库内容的质量不如GS. 不过MAS仍然在迅速的发展着, 希望它能早日完善数据库内容, 提高搜索结果的质量.

综上所述, Google Scholar作为稳坐搜索引擎头把交椅的Google旗下的产品, 搜索功能和搜索结果质量都不是盖的. 而MS Academic Search作为挑战者, 虽然提供了许多独具特色的功能, 但在搜索的核心功能上仍无法和Google Scholar竞争, 且数据库覆盖不完整也在一定程度上影响了这些特色功能的可信程度. MAS若想要从已经有广泛群众基础的GS手上争取用户, 搜索的功夫还要再多多修炼才行. 否则那些富有创意的功能就都沦为了"花拳绣腿", 实在可惜.

今天就先分析到这, 下次我将从User Interface (UI)和User Experience (UE)的角度继续比较这两个学术搜索引擎的区别. 敬请期待.

正文到此结束
Loading...