领英称即将开源他们内部的应用软件WhereHows,一个企业级的数据挖掘软件。
准确的说,领英称它为“数据发现软件”。从商业角度讲,WhereHows的目标是从分布式的多种元数据中进行挖掘。
据领英发布的资料显示,WhereHows已经挖掘了50,000条数据集,14,000条评论和35,000,000个工作机会,多达15PB的数据。
在一篇博客中,领英解释了创造WhereHows的原因:建造一个数据生态,适配各种程序,专注一项工作。因为领英有各种各样形式的数据,从Informatic到Spark,到Oracle,再到Hadoop、Teradate等。领英称:
引用
领英积累了大量的数据,形式多种多样。对于不同的业务我们有不同的方案,而对于不同的方案我们有不同的驱动。这种专业化的解决方案很棒,因为它能让我们在各方面都用上最好的工具,但是,这也带来了问题。从这些不同的平台、框架、系统中总览所有数据非常困难。这将造成生产力方面的损失,我们的员工需要花多余的时间来寻找合适的数据集,同时也失去了对数据总体的理解。
企业需要将数据联系起来。领英也有专业的数据仓库团队,但问题是,随着系统的家里,数据的空间激增。
很多企业有相同的问题,领英有Hadoop,多种数据库,Teradata和各种应用程序。有了WhereHows,这些数据都可以移动到同一个地方。这个项目完成之后,将是很大一笔财产。
领英的想法是,希望开源社区能够做些贡献,比如解决bug,增加特性之类的。