近日,谷歌 发布 了Google Cloud Dataproc服务Beta测试版。Cloud Dataproc是一个托管的Spark与Hadoop服务,可以帮助用户快速创建集群、简化集群管理及降低使用成本。借助该服务,用户无需考虑部署、扩展、监控等管理工作,可以将全部精力都集中到数据处理上。
与传统的本地产品或其它存在竞争关系的云服务相比,Cloud Dataproc有如下优势:
- 成本低 :Cloud Dataproc的定价为每颗虚拟CPU每小时1美分。它还可以包含 可抢占实例 ,使使用成本进一步降低。另外,Cloud Dataproc按分钟计费,最小计费周期为10分钟。
- 速度快 :在本地或IaaS提供商那里创建Spark与Hadoop集群需要5到30分钟不等。相比之下,Cloud Dataproc启动、扩展和关闭都非常快,每个操作平均大约只需要90秒。
- 一体化 :Cloud Dataproc内置集成了其它谷歌云平台服务,如 BigQuery 、 Cloud Storage 、 Cloud Bigtable 、 Cloud Logging 和 Cloud Monitoring 。这相当于提供了一个完整的数据平台。
- 托管 :Cloud Dataproc使用户可以在没有系统管理员或专门软件的协助下就可以使用Spark与Hadoop集群。用户可以通过谷歌开发者控制台、 Google Cloud SDK 或Cloud Dataproc REST API管理集群和Spark或Hadoop任务。
- 简单熟悉 :用户不用为了使用Cloud Dataproc学习新的工具或API。现有的项目无需重新开发就可以迁移到Cloud Dataproc上。Spark、Hadoop、 Pig 及Hive都会经常更新。目前,Spark的版本为1.5,而Hadoop的版本为2.7.1。
总之,正如Cloud Dataproc项目经理James Malone所言:
Cloud Dataproc让你可以随时访问简单、快速但功能强大的、托管的Spark与Hadoop集群。
感兴趣的读者可以查看Cloud Dataproc 官方网站 ,按照 入门指南 试用,或者在 Stack Overflow 上提问及反馈。
感谢郭蕾对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群 )。