转载

MapR大数据融合平台正式上市,每秒可处理近2千万笔信息

Hadoop企业版发行商MapR于3月8日宣布，旗下融合数据平台(Converged Data Platform)正式上市，并加强Docker容器(Container)、安全性、数据治理等功能。另外，此平台现在也包含了开源Hadoop专案Apache Myraid，让集群管理工具YARN和Mesos间共享数据中心的资源，并支持多租户环境。

MapR融合数据平台将Hadoop和Spark、网络规模(Web-Scale)的储存、NoSQL、数据串流功能等整合到一个统一的集群，提供用户可以部署即时数据应用程序。MapR Platform由业界最快速、最可靠、安全且开放的数据基础设施所驱动，极大降低了TCO，并实现了全局的实时数据应用。而该平台主要由大数据事件串流系统MapR Streams、NoSQL数据库管理系统MapR DB，以及基于POSIX档案系统型态的储存系统MapR FS所组成。comScore的CTO Mike Brown这样评价MapR：“MapR位列以数据为中心的业务解决方案的前沿，他们提供了最佳的大数据平台，同时其核心架构成功地满足了现代数据的挑战”。

在这次的更新中，MapR透过状态数据(Stateful Data)来加强Container与持续储存(Persistent Storage)的互动，而状态数据就是指数据的背景，举例来说，顾客的销售历史记录，每个重要信息构成了历史记录，历史记录则构成了数据背景，而此数据能供应用程序持续检索。另外，融合数据平台之于Docker Container就像数据服务层，提供Container分布式且弹性的储存，也包含容器化(Containerized)应用程序所需的数据库和信息与串流功能。

在安全性方面，融合数据平台现在利用访问控制表达式(Access Control Expressions，ACE)来描述使用者存取的数据权限，根据MapR，ACE让系统管理员可用1～2行的代码，就能描述指定的存取权限。而除了ACE外，MapR也在MapR Volume多加一层数据档案的防护，加强多租户控制，以确保数据仅供指定群组存取。

而在性能的部分，研究机构ESG进行MapR Streams的基准测试，结果显示在每秒3.5GB的吞吐量下，每秒可处理超过1800万笔信息。另外，MapR DB现在支持原生JSON文件储存格式，使用者可在SSD中，透过平行I/O即时存取NoSQL数据。

搭建融合数据平台是为了满足融合运营和分析管道的要求，以及随后的捕获、处理、存储和查询阶段的存储要求，一个基于大数据闪存的数据构造是融合平台理想的存储层构建模块，可让数据管道的每个阶段都受益。