出身名门雅虎的Hortonworks拥有许多优秀的Hadoop架构师与源代码的贡献者,它们为Apache Hadoop项目贡献了超过80%的源代码。随着各种Hadoop发行版的涌现,Hortonworks如何能一枝独秀,坚持自己百分之百的开源路线呢?本期IT名人堂嘉宾,我们在2015中国Hadoop技术峰会上,邀请到了Hortonworks的 CTO Jeff,对他进行了独家视频访谈。
皮皮:Jeff,很高兴认识您!作为Hortonworks的CTO,您在海外非常有名气了,可能对中国人还不太熟悉,能不能介绍下自己?
Jeff:当然,我叫Jeff,是Hortonworks亚太地区的技术总监,我们是一家提供开源Hadoop版本的提供商。
皮皮:在2015中国Hadoop技术峰会上,您的演讲主题是什么?能否和我们分享下您的主要演讲内容?
Jeff:我回顾了2014年的历程,也讲到了这一年重点发生的一些业界大事儿,整个Hadoop生态系统变得越来越成熟,变得越来越重要。在技术层面上,我还谈及了架构、SQL on Hadoop的解决方案等。此外,我还从整个开源项目的角度,预测了2015年Hadoop生态系统的发展趋势。
皮皮:当我们谈到大数据,大家会想到Hadoop,于是有人就会很好奇,大数据等同于Hadoop吗?它们之间是什么关系?
Jeff:这个问题问得很好,有些人说大数据就是Hadoop,有些人觉得大数据不是Hadoop。毫无疑问,大数据势不可挡,变得越来越流行,这背后有很多原因,其一是因为它纯开源、拥有庞大的用户群;其二是因为有足够成熟的硬件支持,众人拾材火焰高。
这就意味着大家可以开始下载、尝试体验、找出一些处理和分析数据的新方法,那在此之前呢,我们没有办法做到这些,所以,我觉得大数据和Hadoop非常相近,可以合二为一。
皮皮:这些年来,Hadoop广为人知,几乎每个人都在谈论Hadoop,您是如何看待Hadoop生态系统的未来?
Jeff:我非常看好Hadoop生态系统的未来,因为它的开源,因为它拥有不错的硬件支撑,任何规模的企业都可以采用前所未有的方式来采集与分析数据,对我们来讲,我们会将重心转移,从之前关注版本技术的层面,逐步转移到更加广阔的用户应用场景中。
不同的行业,比如财务部门,制造业、电信业,怎么利用今天的数据来保持竞争性的优势呢?我们更需要探讨的是Hadoop对每个企业能带来哪些整体价值。对企业来讲,我们不仅要利用数据来淘金,还需要借助数据来更好、更深层次的理解客户、产品和他们的服务。
皮皮:您说得非常好,我们今天在谈大数据,经常会提及到3V( volume、variety、 velocity),Hadoop是怎么来满足这些需求的?
Jeff:没错,这是一些与Hadoop、大数据非常相关的常见术语,我考虑更多的是,如何简化Hadoop的版本问题,这样我们可以采用新的方法把数据整合进Hadoop生态系统中。比如最近兴起的storm、spark技术等。
皮皮:我常常认为,我们可以借助大数据或者Hadoop技术,把原始数据变成美元或者人民币,但是数据是非常有价值的,有些数据也是特别敏感的,那在数据挖掘中如何保证数据的安全性呢?
Jeff:这些技术非常重要,在我们今天看到的Hadoop架构中是真实存在的,不可或缺的。无论是Hadoop、Storm还是Spark,它们的功能都在增长,也会变得更加重要。未来,我们觉得,大家会越来越喜欢探讨Hadoop用户案例等问题。
谈到Hadoop,我们可能不再关注于查询性能的优化,安全性问题将会成为Hadoop社区新的关注点。
我们Hortonworks收购了一家XA Secure的企业,我们为Apache软件基金会贡献了一个新项目Apache Ranger。这个新项目结合了一些安全性特征,被引入到了Hadoop项目的内核中,为Hadoop的发行版提供了全面的安全套件。在这个安全套件里,不管你把数据存储在Hadoop集群里,还是存储在Hive Table、或者HDFS里,我们都可以使用Apache Ranger项目来确保数据的安全性。
皮皮:尽管Hadoop发展得如火如荼,但我们很少人会直接使用Apache的发行版。与此同时,我们注意到越来越多的Hadoop发行版开始涌现了,比如Cloudera、IBM、微软、Hortonworks和Amazon等。能不能和我们谈谈这些发行版在大数据市场的地位?
Jeff:你说到,很少人会直接使用Apache发行版,这个没错。事实上,当你在使用Hortonworks 数据平台的时候,你在使用开源的Apache 软件基金会的发行版。我们坚信,开源能够带来最好的价值,开源能够实现最好的创新,开源能够为数据中心引入最好的技术。因此,我们要做的事情都会围绕Apache软件基金会展开。
当然,我对其它的发行版也心生敬畏,比如Cloudera Manager、 Cloudera Navigator等,这些项目在开源的世界里发挥着非常重要的作用。而我们一直以来,都坚持将它开源,保持了整个Hadoop生态系统的纯开源的本质。除了Hortonworks,没有其它的企业还能坚持百分之百的开源。
皮皮:对于中国从事大数据行业的CTO,您有哪些建议?
Jeff:当我们投入Apache软件基金会的研发过程时,当我们在开发Hadoop核心代码时,我们要把已有的技术和资金投入到我们的数据中心里。无论你用的是Oracle、SQL Server、还是Teradata等数据库,我们想做的是将Hadoop整合到已有的技术中,能够将现有技术的价值最大化。因此,我想对CTO说的是,请在你的数据中心中使用Hadoop吧,将Hadoop整合到您的产品中吧,因为它们是开源的。
皮皮:对于中国从事大数据行业的个人来讲,您有哪些建议?
Jeff:对于个人来讲,我的建议是上官方网站Hortonworks.com 下载Sandbox体验下,这是一个大家都可以使用的虚拟机,它能够免费运行在桌面上,同时支持Windows和Mac操作系统,大家可以在VMware里运行Sandbox,也可以在VirtualBox里运行它。
随着企业数据量的增大,数据越来越多样化,Hadoop大展拳脚,很多终端用户感觉不到,但他们却在真实使用着Hadoop,他们能觉察到,自己所使用的数据越老越庞大,越老越复杂。
(来源:泰迪智慧)