转载

盘点人气云计算&大数据开源技术变迁

从2010年开始，CSDN连续参与举办了六年中国云计算大会。在这6年时间，我们看到过被人质疑的云计算，也看到了现在云计算成为各种创业公司的基础，甚至走入各种互联网之外的传统企业，见证了其在中国的发展的整个过程。整个发展过程中，在服务可靠性技术问题得以解决之后，数据归属成为不折不扣的导火索，公有云与私有云之争一度也异常激励，而经过了长时间实践之后，则形成当下公有云、私有云、混合云等解决方案并存的状态。

盘点人气云计算&大数据开源技术变迁

在这个基础上，我们看到很多开源云计算、大数据技术框架得到了飞速发展，其中更有一些已经成文业内事实上的标准。这些开源框架的出现大幅度降低了云计算和大数据技术的使用门槛，然而同时新的问题也随之浮现，即如生产环境使用挑战。为此，2016年，CSDN特举办了一场面向开发者的云计算技术大会——2016中国云计算技术大会(CCTC 2016)，以实际应用和实践调优为主，力邀Intel、微软、IBM、AWS、Hortonworks、Databricks、Elastic、百度、阿里、腾讯、华为、乐视、京东、小米、微博、迅雷、青云、国家电网、中国移动、长安汽车、广发证券、民生银行、国家超级计算广州中心等机构的60+顶级技术讲师授业布道，为各位基础设施维护的与会者指点迷津。

大会召开前期，特别梳理了历届大会亮点以记录中国云计算技术大会发展历程，并立足当下生态圈现状对即将召开的CCTC 2016进行展望。

读开源云计算&大数据技术演变

业务需求刺激下，大数据生态繁花似锦

近年内，随着越来越多的设备接入互联网，当下一年所产生的数据往往是以往数年的总和。而据Global Cloud Index预计，截止至2020年互联设备数量将达到500亿，众多爆发式增长的设备预计在2017年便会产生高达7.7 ZB的互联网数据。在这个大背景下，各个机构都积累了足够多的数据，从而对数据进行分析并产生指导实践的见解也成为了企业提高竞争力的迫切需求。在这个需求刺激下，开源大数据技术生态圈得到了飞速发展——在数据的整个生命周期中，从收集到处理，一直到数据可视化和储存，各种开源技术框架林立。

在开源大数据处理上，出于对成本和数据量的考虑，横向扩展已经必不可少，因此在这个领域涌现出大量优秀的集群计算框架，其中大家首先想到的就是Hadoop。Hadoop天生高贵，由原雅虎工程师Doug Cutting在Google论文的启发下建立，也是时下生产环境部署最多的计算框架。然而，随着内存成本的降低和对不同处理类型需求的增加，缺乏对内存有效利用及资源调度粒度的不够，业内涌现出大量优秀的计算框架并占据一席之地，其中备受关注的包括Apache Spark、Apache Flink、Apache Storm/JStorm等，整个大数据生态繁华似锦。

开源IaaS发展，从百花齐放到一家独大

如上文所述，随着接入互联网的设备增多，企业IT基础设施往往需要承受以往数倍的压力，从而对原有的资源组织方式提出了严峻的挑战。在这个前提下，云计算得以快速发展并在各行各业落地，更成为许多创业公司的立足之本。而作为云计算的一种重要形式，IaaS服务有各种开源和商业云平台方案，作为当前最成功的云计算平台，AWS更是吸引了众多的关注和模仿，如果说云计算发展到如今的火爆，除了IT技术的发展趋势，更重要的是背后顶级云计算厂商的大力支持和推广。我们最早听到IaaS概念可以追溯到1983年，一家在现在看来非常厉害的公司Sun Microsystems就提出了“网络是电脑”的概念，但是由于概念太超前，在当时并没有引起重视。

随着Amazon推出其弹性云计算，并在IaaS领域大获成功，Google、微软、VMware、IBM等IT巨头们大举跟进，纷纷涉足云计算领域，云计算的热潮汹涌而至。在这期间，开源IaaS领域发展同样迅猛，从最早的Eucalyptus、OpenNebula、CloudStack等到我们熟知的OpenStack，百花齐放，百家争鸣，一时云计算领域热闹非凡，当然，随着众多大型厂商的支持、社区的壮大以及生态的不断完善，OpenStack如今大放异彩，开始逐渐占据主导。不是说OpenStack现在完美无缺，只是在当下的开源IaaS领域，OpenStack已经毫无争议的成为最受关注的云计算技术，并逐渐成为开源IaaS领域的代名词。

容器技术异军突起，从技术演进到标准、生态之争

Docker，时下最火的容器技术，从诞生到进军生产环境，每一步的技术演进都受到了巨大的关注。其实，谈及容器技术，其实Docker并非首创，早在十数年前，容器技术便已有雏形，但是以Solomon Hykes为首的一帮工程师敏锐的发现了容器技术在云计算领域的巨大潜力，随后迅速技术转型，开始投向容器技术并且从一开始就走开源路线，这位身上流著美国与法国的血统，喜欢网咖打电动，酷爱摩托车的年轻人开始了一段非凡的浪漫之旅。

无论是版本的迭代还是进军生产环境，Docker这三年来的发展可以说是如鱼得水，当然，期间也受到过质疑，比如CoreOS与Docker的标准之争就在容器圈引起了不大不小的轰动，最后以Solomon和CoreOS的创始人Alex Polvi握手言和告终。之后随着Docker版本的更新，在网络和安全、存储等领域的短板被逐渐补足之后，Docker的集群能力得以完善。

容器引擎领域，虽说有CoreOS团队开源的rkt项目，但是和Docker相比，在用户以及社区活跃度方面都有很大差距。容器的编排，可以说在目前Docker领域受到的关注度前所未有，从Mesos到Kubernetes，围绕两种技术的编排之争超乎想象，由于背后都有大批的厂商支持，短期内，这两种技术都将得到迅速的发展，某一方不会形成压倒性优势，另外，从Docker公司的角度，背后的动作也有对编排的考量，综述所述，容器生态中，围绕Docker的生态之争才刚刚开始。

分析开源云计算&大数据技术最新实践

Docker短板补足，生产级实践备受关注

如上文所述，在Docker版本的更新过程中，自身的一些技术缺陷得到了弥补，Docker在安全、存储以及网络领域的短板得到逐步的解决，Docker进军生产环境已经成为大势所趋。国外，在Docker应用领域有着比较先进的经验。国内目前真正将Docker应用在生产领域的很少，其中应用在核心业务的就更少，Docker从诞生到现在，已经3年时间，如果继续炒作Docker的优越已经毫无意义，当下，开发者们最为关心的是如何让Docker真正落地，如何在生产环境中使用Docker，急需这个领域有一些第一个吃螃蟹的企业出来分享他们的经验和教训。

为此，2016 Container峰会聚焦生产级实践，邀请了在金融、教育、制造、证券等领域已经应用Docker的企业技术负责人到场，给我们谈谈他们在生产环境中是如何使用Docker的，大规模部署Docker的经验和趟过的坑。比如我们请到了民生银行架构管理中心副主任周越博带来《Docker助力互联网金融新架构》，长安汽车分布式技术架构室室主任黄俊带来《容器化技术在长安汽车中的实践》，广发证券信息技术部资深架构师、交易云技术研发团队负责人杨涛带来的《广发证券基于大规模docker容器集群的OpenTrading证券交易云实践之路》，另外，哈有永信至诚科技股份有限公司副总裁带来的《CloudStack+Docker构建云端信息安全实验场》。

OpenStack式微?如何借势Docker

无可否认，Docker的发展热度在一定程度上掩盖了OpenStack的光芒，但是作为开源IaaS领域的首选平台，IaaS如何和Docker和谐发展，或者如何借势Docker弥补OpenStack在技术领域的短板，已经成为很多开发者关注的焦点。另外，上届的OpenStack技术峰会，我们邀请到IBM云计算架构师刘光亚分享了《深度解析Docker和OpenStack系统集成》收到了众多参会者的广泛关注，今年OpenStack技术峰会，我们同样邀请到九州云OpenStack 开发工程师张雷为大家分享如何基于Docker部署升级OpenStack，此外，对于已经部署了OpenStack基础服务的用户而言，如何最大化地发挥底层服务的能力、优化资源使用，同时提升用户体验，我们邀请到IBM高级研究员，OpenStack Senlin项目组长、Heat项目的Core滕启明博士来为我们分享如何通过编程充分发挥OpenStack云的能力。值得一提的是，对于OpenStack在企业的实践，我们也邀请到中国移动，中国银联、国家电网、华为、ebay、顺丰快递等顶级工程师，分享他们在OpenStack实践方面的感悟。

Hadoop老矣?时下开源大数据生态解读

如前文所述，在海量数据处理上，横向扩展已毋庸置疑。而在这个领域，由Hadoop 2.0中诞生的YARN无疑最为耀眼，也是时下生产环境部署最为广泛的开源框架。在本届CCTC 2016上，华为印研Hadoop工程团队架构师、Hadoop Committer Naganarasimha Garla将从技术角度解析YARN的异构实现，而Hulu大数据架构组负责人董西成将分享YARN在生产环境中的异构应用与实践。

谈到开源海量数据处理，行业内首先落地的无疑是批量计算，而在这方面，MapReduce无疑是鼻祖，也是时下生产环境部署最多的计算框架。然而正如上文所述，缺少对内存的有效利用和业务对不同类型计算的需求，效率比较低的MapReduce同样面临着大量竞争者，其中两个备受关注的就是Spark和Flink。因此，在CCTC 2016上，主办方特设置了2016中国Spark技术峰会，不仅有3位Apache Spark Committer Ram Sriharsha、连城、范文臣为大家解析Spark 2.0，来自Intel、Hortonworks、Elastic、腾讯、新浪微博、Admaster、MediaV等国内外机构的近十位专家将带来最新的Spark实践分享，详情可以看笔者之前的峰会解析。而在Flink方面，Flink 活跃贡献者，万达金融李呈祥将为大家分享名为“Apache Flink: Stream engine beyond Batch”的议题。

此外，基于大量用户的生产欢迎使用，Hadoop同样亦在飞速进步，就比如说之前一直由HDF和HBase的存储层已面临Kudu(Cloudera开源)的强力挑战，而在本次会议上，小米云平台软件工程师常冰琳将带来小米在Kudu等开源大数据上的实践。同时，阿里云技术专家曹龙(封神)也会分享阿里的Hadoop相关实践。

当然，满足业务需求，生产环境使用是大家所追求的共同目的，因此在本届峰会上，我们特邀了中移动苏研薛港，百度高级产品经理、百度开放云大数据平台产品负责人张琪，腾讯高级工程师许振文，京东搜索与大数据平台部数据仓库研发部高级经理刘业辉，平安科技高级研究员夏磊豪，青云QingCloud系统工程师周小四为大家分享各大知名机构的第一手实践，详情可访问 CCTC 2016 日程。