Hadoop企业版发行商MapR于3月8日宣布,旗下融合数据平台(Converged Data Platform)正式上市,并加强Docker容器(Container)、安全性、数据治理等功能。另外,此平台现在也包含了开源Hadoop专案Apache Myraid,让集群管理工具YARN和Mesos间共享数据中心的资源,并支持多租户环境。
MapR融合数据平台将Hadoop和Spark、网络规模(Web-Scale)的储存、NoSQL、数据串流功能等整合到一个统一的集群,提供用户可以部署即时数据应用程序。MapR Platform由业界最快速、最可靠、安全且开放的数据基础设施所驱动,极大降低了TCO,并实现了全局的实时数据应用。而该平台主要由大数据事件串流系统MapR Streams、NoSQL数据库管理系统MapR DB,以及基于POSIX档案系统型态的储存系统MapR FS所组成。comScore的CTO Mike Brown这样评价MapR:“MapR位列以数据为中心的业务解决方案的前沿,他们提供了最佳的大数据平台,同时其核心架构成功地满足了现代数据的挑战”。
在这次的更新中,MapR透过状态数据(Stateful Data)来加强Container与持续储存(Persistent Storage)的互动,而状态数据就是指数据的背景,举例来说,顾客的销售历史记录,每个重要信息构成了历史记录,历史记录则构成了数据背景,而此数据能供应用程序持续检索。另外,融合数据平台之于Docker Container就像数据服务层,提供Container分布式且弹性的储存,也包含容器化(Containerized)应用程序所需的数据库和信息与串流功能。
在安全性方面,融合数据平台现在利用访问控制表达式(Access Control Expressions,ACE)来描述使用者存取的数据权限,根据MapR,ACE让系统管理员可用1~2行的代码,就能描述指定的存取权限。而除了ACE外,MapR也在MapR Volume多加一层数据档案的防护,加强多租户控制,以确保数据仅供指定群组存取。
而在性能的部分,研究机构ESG进行MapR Streams的基准测试,结果显示在每秒3.5GB的吞吐量下,每秒可处理超过1800万笔 信息。另外,MapR DB现在支持原生JSON文件储存格式,使用者可在SSD中,透过平行I/O即时存取NoSQL数据。
搭建融合数据平台是为了满足融合运营和分析管道的要求,以及随后的捕获、处理、存储和查询阶段的存储要求,一个基于大数据闪存的数据构造是融合平台理想的存储层构建模块,可让数据管道的每个阶段都受益。