从2008年60人规模的“Hadoop in China”技术沙龙,到当下数千人规模的行业技术盛宴,八届BDTC(大数据技术大会)忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验。同时,2015年12月10至12日,第九届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验。
为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2015召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT巨头在大数据领域的探索之路。第一期,我们将关注国际知名IT企业的声音。
IBM大中华区系统与科技事业部杰出工程师李永辉:IBM Watson 大数据与分析平台
PPT下载——2014年第八届BDTC
Watson得名于IBM创始人Thomas J. Watson,在2011年IBM 100周年之际,Watson参加了Jeopardy危险边缘电视游戏节目,在经历了三轮的比赛后,最终赢得了冠军。Watson并不是一台机器,是一个集群,一共有2880个节点。设计目标是能解答人类语言自然表达的提问,懂得分析大量非结构性数据,拥有自我学习能力,并能实时回应的计算机。
英特尔大数据首席架构师戴金权:基于Spark软件栈的大数据分析
PPT下载——2014年第八届BDTC
戴金权表示,大数据深入分析大致分为两类: 类似SQL数据分析,进行关系型云运算;达到实时、快速的数据分析速度。 他认为,利用Spark构建下一代大数据分析,能够为用户构建新的应用场景及新的分析应用。 并举例说明Spark与SQL结构式数据结合的方式,对 Hive和Parquat进行数据处理。
Hortonworks资深工程师、Apache HBase核心贡献者Ted Yu:HBase 1.0及2.0的最新进展
PPT下载——2014年第八届BDTC
Ted Yu介绍HBase1.0和2.0的最新研发进展,主要包括HBase1.0、HydraBase、Phoenix二级索引及Per column family flush的变化。据他介绍,HBase1.0的重大变化包括稳定性、可用性、易用性等方面的提升,如Master 嵌入RegionServer。而HydraBase则提供99.99%或者更高的可用性,当一个集群宕掉以后,能以秒级恢复,并且做到不丢失数据,但采用的是不同的方式。
Apache Kylin联合建立者、eBay高级产品经理韩卿:Apache Kylin——Hadoop 上的大规模联机分析平台
PPT下载——2014年第八届BDTC
Kylin是一套由eBay公司打造的开源分布式分析引擎,其突出特性在于能够为Hadoop支持下的庞大数据集带来标准SQL接口与多维分析(OLAP)能力。该项目开源于2014年10月1号,并在11月25日成为Apache的孵化项目。韩卿分享了Apache Kylin的背景以及想要解决的业务问题,以及所采用的技术,并就该项目的主要特性进行了剖析。
沃尔玛实验室核心数据科学家Zhu Tao:电子商务中的“纳米技术”
PPT下载——2014年第八届BDTC
Zhu Tao认为,大数据在电子商务中的定义是指在每一个用户下面管理商务。正如纳米技术关注尺度很小的材料,沃尔玛电商大数据主要希望观察到每一个用户,每一个产品如何从沃尔玛流向每一个用户的,进而实现更加智慧更加优秀的用户体验。演讲期间,Zhu Tao对沃尔玛实验室的打包推荐技术进行了详细的剖析。
VMware主管工程师堵俊平:Hadoop Virtualization Extensions
PPT下载——2013年第七届BDTC
VMware主管工程师堵俊平分享了大数据五点趋势: Hadoop 2.0和YARN在大数据生态系统中扮演资源管理的核心角色;MR不够好,Tez,Spark可能是替代者;HDFS努力支持更多的业务场景;更多的基于Hadoop的SQL引擎,如Drill、 Impala、Stinger;企业级服务,安全、HA、QoS等。YARN和云作为全球化的基础设施管理平台,可以相互结合,但是又各自有着不同的出发点,可以将它们进行有效的结合,发挥各自的优势,使YARN感知和管理云基础设施的变化,云管理平台也能使用YARN的资源通知机制。
Apache Tez Committer Bikas Saha : 下一代 Hadoop
PPT下载——2013年第七届BDTC
Bikas Saha介绍,YARN的架构虽然看上去与Hadoop 1.x非常类似,但是逻辑上两者却存在着很大的不同。相对于Hadoop 1.x,YARN的优势主要体现在以下几方面:增加了新的应用和服务、增强了集群的利用率、规模更大、实验的灵活性、共享服务等,并对各个方面进行了详细的展开说明;同时,他还分享了YARN愿景的规划,通过YARN可以把所有的数据储存在一个地方,并且用不同的方式进行交互,同时提供性能预测。比如Windows或其他操作系统可以对系统内不同的资源进行分配和管理,YARN也能够进行这种集中管理。
Hortonworks 技术Leader Gunther Hagleitner :Apache Hive&Stinger
PPT下载——2013年第七届BDTC
Gunther Hagleitner首先描绘了Stinger诞生的背景,希望通过社区推动下一带Hive的发展,将Hive的查询速度提升100倍,不仅能够支持交互查询的功能,同时能够提升其可扩展性;接下来,Gunther详细介绍了插入、更新、删除操作,对于Hive而言,所加入的一些相关内容就是实事的交易,客户的表格可能每个小时都要进行更新或删除。每次更新都会存储一个新文件,并记录所有的变化。当查询的时候,会出现一系列交易的列表,他们会把这些这些文件进行整合。 最后,Gunther也谈到了Tez。Gunther表示Tez替代了MapReduce。使用Tez后,Tez可以针对不同的任务MapReduce任务进行提交。
Hadoop PMC Sze, Tsz-Wo (Nicholas) : HDFS 在 Hadoop 2.0 中的创新
PPT下载——2013年第七届BDTC
Nicholas介绍了如何通过Multiple Namenode Federation解决Namenod的单点问题,Multiple Namenode Federation有多个Namenode,而且每一个Namenode都是独立的。对于HA的2.0版,包括支持热备(热备的NameNode会在内存中维持数据结构),支持手动或自动的失效备援。在自动失效备援情况下,能够激活NameNode选择机制以及采用ZooKeeper侦测失效;周期性的NameNode健康检查;重放缓存。他还介绍道在没有文件系统快照前,删除文件是不能够恢复的,也不能在某时间点恢复,更不能周期性的恢复。
Facebook 数据基础构架团队软件工程师董思颖:Facebook 开发HDFS 和HBase 新进展
PPT下载——2012年第六届BDTC
董思颖详细介绍了Facebook的NameNode和DataNode之间如何来实现数据增量,他以“人口普查-出生报告-死亡报告”来形象地描绘二者之间“完全报告+增量”的过程。而针对困扰业内的“如何实现NameNode不停机升级”这一问题,提供了Facebook的实现方法。在Facebook看来,HDFS和HBase是一个非常重要的基础设施,可以被用在各种不同的产品上,对于两者的使用,Facebook从数据库到实时随机读写再到实时连续读写都有很多更新,这个更新成长的过程很漫长,但是Facebook持续进行各种改进,来帮助HDFC成为一个更通用、更稳定的数据平台。
英特尔亚太研发有限公司大数据部门夏俊鸾:Spark——基于内存的下一代大数据分析框架
PPT下载 ——2013 年第七届BDTC
夏俊鸾介绍,早在2011年Intel就开始贡献Spark项目,当下Intel中国已拥有Spark项目的3个提交者、7个贡献者,其贡献的patch已有70+。在详细介绍Spark之前,夏俊鸾举了一个很有意思的例子,如果把大数据系统比作是手机,那MapReduce只能算是个功能机,而随后出现的Drill、Impala、S4、Storm则是在MapRedcue上各种功能的增强。他重点对用户在使用Spark时经常关心的几个方面进行了解释,包括性能、学习成本、稳定程度、假如内存不足、容错性和兼容性等方面。在最后的现场互动环节,被问及Intel为什么这么大力发展Spark项目时,夏俊鸾解释说,Intel会挑选部分发展趋势良好的开源项目并加入进去,这样做能让Intel在未来竞争中保持一定的话语权。
Teredata 天睿公司大中华区Aster 事业部总监孔宇华: 驾驭大数据—— 如何实现大数据的应用性
PPT下载 ——2012 年第六届BDTC
孔宇华主要讲述了如何来让大数据更加地平民化、更加大众化。他表示,大数据是天时地利人和,让它发挥价值也是需要天时地利人和的。不仅在技术方面、在人员方面、流程方面都需要注意。在大数据方面,从应用看企业需求,从易用看维护,从速度看如何实现数据精华。企业在开发新的大数据平台、大数据产品的时候要考虑到易用,要考虑到你的用户和后端的人员是哪些人,他们是用SQL的还是做代码的。你是要用大数据来解决什么样的问题以及哪方面的问题,之后再从这个应用的需求方面再推断大数据平台和技术上的需求。
IBM Big Data Solutions项目总监George Lapis:利用大数据提取有效见解
PPT下载 ——2012 年第六届BDTC
Big Data Solutions项目总监George Lapis首先介绍了现在社会的智能化,到2020年信息总量将达到35ZB,且大数据并不是针对固定的人员,可针对客服、市场、分析师等。他指出IBM的大数据将传统数据库优化,可以分析和解决传统数据库不能解决的非结构化数据问题。IBM通过对信息的分析中找到了大数据竞争的优势,据IBM调查,从2010年至2012年间,有28%的公司开始了大数据相关工作,47%的公司开始计划大数据相关工作,只有24%的公司没有大数据相关的工作。在大数据的使用中,49%的公司通过大数据实现客户的管理,18%的公司通过大数据来实现运行的优化,剩下的33%通过大数据来实现风险金融的管理,员工的协作等。
LinkedIn Hadoop核心团队俞晨杰:LinkedIn大数据应用和Azkaban
PPT下载 ——2013年第七届BDTC
俞晨杰首先介绍了LinkedIn在Hadoop平台上的大数据应用,包括其数据产品和推荐平台等;然后介绍了其工作流调度平台Azkaban,详细说明了他们如何设计Azkaban来满足大数据产品及工程师设计的要求。俞晨杰表示,Azkaban最大的特色是非常强调可视化,这对于提高公司生产力是十分关键的。另外,他还提出,Azkaban的另外一个特色是支持各种各样的大数据平台,有非常好的兼容性,包括支持Hadoop 0.20、1.x和2.x;兼容Hadoop多种配置,如Hadoop security;支持Pig、Hive等SQL引擎的新旧版本兼容;最后还支持一些非Hadoop平台,如Teradata。
2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所与CSDN共同协办的2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)将在北京新云南皇冠假日酒店隆重举办。第9届中国大数据技术大会历时3天,共包含大数据大赛,大数据生态系统、大数据基础设施、大数据政策法规和标准化、数据库技术与实践、大数据与人工智能、大数据与推荐系统、大数据安全等技术论坛,金融业与大数据、工业制造业与大数据、交通旅游与大数据、互联网大数据等行业应用论坛。预计数千名大数据行业精英、技术专家及意见领袖将齐聚北京,分享最新技术与实践的洞察与经验,共商大数据时代发展之计! 更多优惠,速来注册!