转载

专访宝立明:万流归一,谈Teradata的开放之路

2014年,Apache Spark无疑是大家讨论最多的开源大数据平台,它通过集成流计算、图计算、机器学习等组件以获得更广泛的使用场景,时下已获得Cloudera、Hortonworks、Intel、Datastax、MapR、Pivotal等众多公司的支持。因此,在Spark飞速发展的当下,Teradata提出的以统一数据架构(UDA)实现对开源技术和方案的融合,这种思路到底是“现实需求中产生的开放”,还是在“重造车轮”呢?

然而,在2015 Teradata大数据峰会之行后,笔者了解到Teradata针对开源的战略,也了解到Teradata支持开源的方式——通过Teradata统一数据架构(Unified Data Architecture,UDA)打造一个开放的框架,在提供了核心的业务功能之外,让用户可以便捷地将各种开源或者商业解决方案集成到平台框架内。在对Teradata 天睿公司首席技术官宝立明(Stephen Brobst)的专访中,笔者对Teradata的设计思想有了更清晰的认识。

专访宝立明:万流归一,谈Teradata的开放之路

开放,博众所长后的竞争力

在我看来,没有任何一个技术可以完美地完成所有事情,所以如果一定要什么都做的话,最终可能一无所长——宝立明。

当谈到了与其他竞争对手的对比,宝立明在专访中表示,市场上存在堆栈式和深挖核心两种策略;前者试图尝试一切,包括应用、ETI、商业智能、数据库、硬件等而后者则是深挖擅长领域,通过一个开放的途径,让更擅长其他领域的伙计们来更出色地完善你的产品,这才是真正的竞争力。

从结构化数据到非结构化数据,四海皆准的技术已不可求,大数据的分析需求促成了单一数据库到生态系统的转变,单平台多系统已势不可挡——宝立明。

需求是产业发展的核心动力,而在这个转变的过程中,宝立明先生看到一个非常好的趋势已经形成——机构开始采用开源架构。其中,Teradata率先在业界将开源Unix和Linux结构应用到数据库平台上。现在看起来可能“习以为常”,但在当时却是一个非常大胆的举动。坚持开放一直契合于Teradata的战略,通过实现互通、互操作,在深挖擅长领域的同时,通过Teradata统一数据架构更对任何第三方敞开,包括商业软件,也包括开源系统。

同时,我们还了解到,从真正已经从大数据获得洞察的机构来看,某些机构通常会拥有3个以上的系统,这些绝对不是简单的一个Hadoop能做到的。

开放,Teradata支持开源的方式

搜索一下“Stephen Brobst”,我们很简单地就发现Stephen是一个不折不扣的开源拥护者。然而令笔者费解的是,Teradata首先不是一个商业化的开源技术的公司,也并非技术社区上的最大贡献者,那Teradata对开源的支持从何而来。被问及这一点时,Stephen给出了多个令人信服的回答:

Hadoop相关。 通过Teradata的专利技术QueryGrid,用户可以实现开源Hadoop系统与商业技术之间的互通性。这些商业技术既包括Teradata自己的产品,如Teradata数据仓库、Teradata Aster大数据探索平台,也包括第三方的数据库产品,如SAS以及Oracle的产品。同时,Teradata还提供了Hadoop仪表盘功能,即在Hadoop文件系统上添加一个仪表盘的能力,使得流数据能够进入到Hadoop,然后对它进行部署。此外,Teradata还收购了Loom Technology,推出了Teradata Loom技术,实现数据扰动,这也是Teradata在Hadoop文件系统之上所新部署的功能。

机器学习相关。 Teradata同样打通了机器学习相关的开源技术,比如Spark MLlib和Apache Mahout,更提供了简单的R和SAS操作机器学习的可能。

流计算相关。 Teradata仍然提供了商业数据库与开源技术的融合。就流处理而言,Teradata建立了一个Listener的框架,客户可以将流处理即插即入到这个框架中,可以充分利用Kafka、Spark、Apache Storm等。另外,Teradata还拥有消息排队、消息总线等功能。

当然,大数据分析中还有一个不可或缺的就是图计算,不过正如宝立明所述,这也是Teradata自己的深挖领域,暂时还没考虑到打通开源。

即便如此,我们也理解了Teradata对开源的支持方式—— 对比某个技术上的提升,Teradata的方式是在自己平台上提供开源技术的接口,从而加速各种技术的落地和发展,让机构利用开源起来也更加地有信心。

收购,更丰富生态系统的形成

如上所述,Teradata的观点一直是将事情交给更专业的人去做。因此,仅2014年,Teradata就收购了4家大数据公司,其中包括Revelytix、Hadapt、Think Big Analytics以及RainStor,而这一切都是为了打造一个更有竞争力的生态系统。

宝立明说: “我们所打造的生态系统称为Teradata统一数据架构,这一生态系统涉及到三种应用:第一种就是“数据湖”或者“数据水库”,主要用于捕获原始数据,包括结构性和非结构性的数据,然后再在UDA架构中进行数据资料的分析;第二种就是整合型数据仓库,这实际上也是Teradata公司的核心产品;第三种就是我们的探索发现平台,这个是Aster的主要功能。我们将SQL和非SQL集合在一起,包括图形和文本等都能在这一平台上进行分析。这三个应用就是通过QueryGrid实现互通和互操作的。”

Teradata收购Hadoop技术的主要目的是让QueryGrid更加有效,让Teradata的互通能力变得更加有效。而Loom Technology的收购主要是为了完成数据沿袭的工作。另外,收购Think Big主要为了为客户提供更优的咨询方面服务,例如就如何更好地管理Hadoop系统,提供咨询服务。而收购RainStor则是把那些大量的可伸展性的数据来进行压缩,把它进行很好的压缩之后,实现更高效率的数据存储。

综上所述,这些收购都是为了具备生态系统各种不同的能力所做的准备,并将通过QueryGrid软件实现上述所有这些功能之间的互通和互操作。

大数据,已成许多行业的生命线

风风火火数年,是炒作还是价值,大数据的讨论从未停止过。在专访中,宝立明以一个电信运营商的例子告诉我们,时下大数据已成为许多盈利的根本:

消费者对网络带宽的需求呈指数级增长,但电信运营商在这个上面的收入却只呈线性增长。大家都想要花更少的钱获得更多的东西。这对于运营商来说,自然就演变为成本和收入不平衡的关系。这也是西班牙电信、Verizon和AT&T等电信公司尽力做数据变现服务的原因,尝试弥合收支不平衡的鸿沟。

众所周知,通过售卖带宽获得的收入是有限的,因为基本上人们都是以月付订购方式进行购买。现在更多的电信运营商将重点放在增值服务上,例如电信运营商可以针对零售业来进行推荐,比如北京某一条街道的人流量最多,这里是进行广告投放或者开店的最优位置;或者说还可以再进一步提供增值服务,比如我们经常谈到的LBS基于位置的服务,其实电信运营商在这方面比其它公司更有优势。因此,通过这种数据变现的方式,可以更好地弥补网络带宽成本和收入之间的鸿沟。

通过数据变现,大数据分析能给电信运营商带来的更大的益处。因为我们需要数据分析,才能够提供精准位置的信息情报,所以现在越来越多的是一些地理空间的非常精准的数据分析,然后把这些数据分析的结果再一次打包,以B2B的商业模式提供给企业级客户,也就是将消费者的数据作为产品销售给企业客户。

正文到此结束
Loading...