大数据技术已经应用到各行各业,并且逐渐成为企业竞争的关键因素。在今年的 大数据核心技术与应用实战峰会 上,你除了可以收获百度、阿里巴巴、腾讯、京东等互联网公司的顶级大数据专家带来的技术分享之外,还将斩获中国移动、平安科技、万达金融等公司的大数据实战案例。
技术方面,本届大会的议题注重最新技术的发展和趋势,例如在Kudu方面,我们邀请小米的云平台工程师常冰琳;应用层面,我们邀请到京东的搜索与大数据平台部数据仓库研发部高级经理刘业辉来分享他们的实战。在大会召开前夕,为了让更多读者了解本次峰会,今天,就让我们为大家揭秘本次大数据核心技术与应用实战峰会的讲师阵容和详细的议题介绍。
张琪,百度高级产品经理,百度开放云(bce.baidu.com)大数据平台的产品负责人,热爱数据热衷布道,希望打造良心产品以及交流核心技术,帮助中国企业充分发挥其数据的商业价值。
演讲主题:大数据时代的数据仓储
议题简介:进入大数据时代以后,人们往往把大数据与Hadoop/Spark等同起来,数据仓库也非要SQL on Hadoop/Spark不可。大数据并不只是MapReduce,Massively Parallel Processing(MPP)也是一种为数据仓库设计的计算模型。在这个专场中,我们将介绍数据仓储的两种实现技术、各自适合的场景以及优缺点,借助demo,帮助观众灵活运用两种技术在大数据时代获取新的洞察力。
听众收益:帮助听众灵活运用大数据技术。
曹龙, 阿里云技术专家,专注在大数据领域,6年分布式引擎研发经验;阿里YARN、spark技术负责人;先后维护上万台Hadoop、ODPS集群;目前是阿里E-mapreduce负责人之一,为广大公共云用户提供专业的Hadoop服务.
演讲主题:Hadoop在云上的最佳实践
议题简介: 本次演讲,曹龙将介绍阿里怎么看Hadoop生态的,从内存、网络、磁盘、带宽等方面讲述在云上跑Hadoop,Hadoop在云上的一些部署架构、基础组件如何契合云、未来的发展,最后讲用户在云上使用Hadoop的最佳实践。
听众收益: 了解Hadoop的生态以及阿里在云上使用Hadoop的最佳实践。
许振文,2010年初硕士毕业加入腾讯搜索线,从事搜索监控平台和爬虫平台研发。2013年底至今在腾讯互动娱乐数据中心负责游戏数据分析后台架构设计开发,包括根游戏据数据特点定制开发的分布式文件存储系统,调度系统,画像系统,以及采用开源社区的hdfs,spark等组建来建设腾讯游戏数据分析系统。在分布式存储系统,调度系统和多维数据分析领域有较丰富的经验。
演讲主题:为游戏分析设计的分布式数据存储系统
议题简介:在“大数据”相对泛滥的今天,我们看到很多讨论各种大数据架构、存储、工具、算法等等。但是大数据工具在具体应用场景中的计算各有不同之处,本话题将简单介绍腾讯游戏数据分析系统的后台架构,并且主要介绍一个为游戏分析这类场景设计开发的的小型数据存储系统。
听众收益:如何利用大数据技术为游戏使用产经构建存储系统。
刘业辉,长期从事电信、金融、互联网领域的数据仓库、BI、数据挖掘等相关工作。在数据仓库整体架构、设计、开发和项目管理中积累了大量一线实战经验,擅长大数据相关产品的规划和建设。 供职于京东集团,担任搜索与大数据平台部数据仓库研发部高级经理。
演讲主题:京东数据仓库3.0时代:面向服务化的大数据平台与实战
议题简介:随着数据的增长,技术的进步以及数据意思的增强,对数据的需求发生了哪些根本性的变化?对数据仓库又提出了哪些新的挑战?如何通过打造平台化的大数据架构,发展出面向服务化的新一代数据仓库来解决数据需求的变化?本议题将对这些作出一一解答。
听众收益: 面向服务化的大数据平台的实战经验。
周小四,现任青云QingCloud系统工程师&大数据平台负责人,在加入QingCloud之前先后供职于美国Florida International University(FIU)在线学习部门、IBM以及高德(阿里巴巴)。周小四获得FIU计算机硕士、MBA学位,上海交通大学模式识别及智能系统硕士学位,哈尔滨工程大学学士学位。
演讲主题:青云QingCloud大数据云平台基础架构实践
议题简介:大数据平台的趋势是开放和云服务化,但云计算和大数据的相互关系到底是什么?如何在云基础设施上提供既敏捷又不失稳定性的高性能大数据平台呢?在建设大数据基础云平台的过程中又会遇到哪些挑战?最后形成的大数据云平台的整体架构会是什么样子?可以适用于哪些用户场景呢?在应用过程中又有哪些最佳实践呢?本次分享,青云QingCloud大数据平台负责人周小四将会一一为你解读。
听众收益:大数据与云平台的最佳实践经验。
夏磊豪,平安科技高级研究员,从事深度学习与异构计算相关研究,专注于金融行业非结构化数据商业价值的深度挖掘与分析,目前负责多个金融大数据产品的设计及研发。
演讲主题:两朵云与金融阿法狗
议题简介:在本演讲中,将首先介绍金融阿法狗,以及平安的深度学习云与异构计算云实践,接着将列举当前大数据在金融行业的主要应用领域,并分析其商业价值。接着,将介绍深度学习技术的发展以及异构计算的应用空间,然后以平安在金融大数据领域的布局为例,介绍其广阔的业务应用场景,并提出发展方向。
听众收益:大数据在金融行业的实践。
常冰琳,小米云平台工程师,长期专注于Hadoop生态的分布式计算框架,Hadoop,Hive和Kudu等多个开源项目的贡献者,Haodoop Nativetask项目发起者(已合入Hadoop)。华中科技大学硕士毕业后在百度商务搜索和基础架构部门,从事数据分析平台搭建以及Hadoop开发工作;之后在VMware从事Hadoop开发,目前在小米负责SQL类数据分析平台,最早在国内引入Kudu,一个新的分析型存储引擎,目前在利用Impala和Kudu搭建实时数据分析服务。
演讲主题:使用Kudu搭建OLAP云服务
议题简介:Kudu是2015年Cloudera最新公布的开源项目,弥补了在线事务处理(OLTP)和在线分析(OLAP)之前的空白,本演讲将简单介绍Kudu的设计思想和具体实现,以及小米作为Kudu最早用户的一些实践经验。接下来详细介绍小米如何利用Kudu和Impala构建数据分析云服务,简化数据分析流程,包括如何充分利用Kudu的特性,利用简单的SQL界面完成数据实时导入,数据和查询管理,进行实时分析和复杂查询,存储并服务分析结果,以及权限,资源隔离和调度方面的设计,最后对未来的工作进行展望。
听众收益:Kudu的设计思想和具体实现。
薛港,中国科学技术大学硕士,中国移动苏州研发中心大数据产品开发部高级工程师。负责苏州研发中心分布式数据库的三线运维以及开发工作。基于开源分布式数据库Postgres-X2,开发了我们自主的分布式数据库产品BC-RDB3.1,向社区贡献了十几个核心的patch,主要研究领域:数据库内核、分布式计算等。
演讲主题:PosgreSQL-X2的架构和实践
议题简介:Postgres-X2是一款分布式关系数据库。即具有关系数据库的特性,同时又具备可扩展、高可用的特性,主要应用于海量数据的实时在线交易处理系统。本报告将介绍Postgres-X2的架构和原理,苏研在开发和试点Postgres-X2过程中碰到的一些问题及解决方法,postgres-x2的现状以及后续的计划,最后分享苏研对分布式数据库的一些思考。
听众收益:分布式数据库的特性,以及落地遇到的问题和解决方案。
李呈祥,李呈祥有超过5年的超大规模分布式系统的开发经验,主要专注于Hadoop平台分布式计算框架与分布式SQL引擎的开发与性能优化工作,目前李呈祥是Apache Hive Committer和Apache Flink Committer。
演讲主题:Apache Flink: Stream engine beyond Batch
议题简介: Apache Flink是近两年发展十分迅速的大数据项目,其灵活的流执行引擎,丰富完善的流计算功能都在Hadoop生态圈独树一帜。本议题主要介绍Apache Flink的核心特性,如同时支持流处理与批处理的流执行引擎,流计算的Exactly-Once消息处理,基于Event Time的时间窗口等,以及Flink社区最新关注的方向与进展。
听众收益: 了解Apache Flink的核心特性以及Flink社区的进展。
董西成, Hulu大数据架构组负责人,专注于分布式计算和资源管理系统等相关技术,《Hadoop 技术内幕:深入解析 MapReduce 架构设计与实现原理》和《Hadoop 技术内幕:深入解 析 YARN 架构设计与实现原理》作者。
演讲主题:Hadoop YARN在异构环境下应用与实践
议题简介:随着近几年的发展,Hadoop YARN在资源管理和异构集群与应用支持方面有了很大进展,首先,它已经成为一个通用资源管理系统,不单单可以运行像MR,Spark,Storm等类似的大数据应用,也可以运行类似Web Service 的长服务,其次,它通过引入基于标签的调度机制,可完好地分配和调度异构集群中的资源。本报告将介绍Hadoop YARN在异构应用和异构环境下的实战经验,包括 1)如何通过标签调度集合充分利用异构集群中计算资源,2) 如何在异构环境中开发OLAP系统,并调度运行到YARN上 3)如何在YARN上开发长服务,以及如何管理和部署这样长服务
听众收益: Hadoop YARN 的最新进展。
彭绍亮,博士,2008年至今在国防科技大学计算机学院从事高性能计算、大数据、生物医学工程、移动计算等技术研究工作,并担任天河生命科学计算方向负责人,华大基因研究院“特聘教授”。曾参与天河系列超级计算机应用软件研发工作。
演讲主题:天河超级计算机上的生物医药大数据研究
议题简介:在生物医疗大数据的时代,如何构建大数据基础架构与上层应用的生态系统、解决大规模数据引发的问题、激发数据挖掘所带来的竞争力,是当前需要重点解决的问题。随着高性能计算技术在商业领域的普及应用,以及大数据分析技术和工具的出现,生物医药行业迎来了更为广阔、更具想象力的成长空间。希望天河超级计算机和天河团队能持续加速生物医药大数据的分析和计算过程,助力整个生命科学领域的发展。
听众收益:分散、破碎、多维度、低透明度类型的大数据的实践经验。
本次峰会将总结大数据核心技术的最新发展和趋势,深入探讨大数据应用系统的解决方案。详情请访问CCTC大会官网。