转载

大数据看过来，UOS上的分布式Spark集群

随着移动互联网和物联网的兴起，大数据领域出现了两大新贵，传统的离线大数据处理框架Hadoop和统一迭代计算、流式计算和图计算的Spark。

对于Hadoop我们并不需要过多的介绍，经典的MapReduce编程范式已经流行了近十年，但它的使用很大程度上仅限于离线计算，于是出现了Storm、Hive、Impala等项目来弥补它在流式计算和在线查询上的劣势。大量生态项目的涌入让Hadoop学习越来越复杂，并且很多公司都在重复研究和实现数据挖掘、人工智能的算法，对真正的数据工程师或数学家来说这是难以驾驭的大数据处理服务。

这是Spark应运而生，诞生于伯克利大学的AMPLab，通过RDD的设计创新性地实现了迭代计算、流式计算、图计算等大数据处理接口，并且提供比Hadoop快10倍到100倍的性能。无论从功能来看，还是从性能来看，Spark无疑将获得大部分大数据开发者的青睐。Spark提供了Java、Scala和Python的开发接口，三行代码即可实现经典的WordCount分布式应用，因此快速了解和学习Spark也是当代程序员的基本要求。

UOS支持

大数据看过来，UOS上的分布式Spark集群

为了满足公司内部和公有云用户的大数据开发需求，我们提供的UOS平台必须支持用户在上面运行Spark集群。

UOS通过KVM虚拟化技术为开发者提供了按需分配的虚拟机，在需要分析数据时可以一键创建虚拟机集群，目前UOS基于Ceph统一存储虚拟机启动时间控制在10秒以内。

建立Spark集群还需要打通网络，我们基于Neutron实现的SDN可以支持用户自由配置网络和IP地址，最简单的配置是让Spark集群的服务器都在同一个私有网络中。

除此以外，我们全SSD的块设备也能为用户提供高性能的云硬盘存储服务。由于Ceph是分布式存储，有人担心这是否会影响Spark的性能，实际上Spark的创新之处在于设计了基于内存的RDD，才能在性能上远超Hadoop，从Spark官方文档看出Spark的性能在内存足够的情况下只限于网络。

搭建Spark集群

目前UOS公有云已经有使用Spark的大数据用户，我们通过他的分享来快速搭建自己的分布式Spark集群。

要搭建Spark计算集群，我们需要创建三台服务器，系统使用Ubuntu或CentOS都是支持的，并且让绑定在同一个私有网络上。

大数据看过来，UOS上的分布式Spark集群

然后我们需要安装Java、Scala和Spark，安装步骤虽然有些繁琐，但在Ubuntu虚拟机上已经测试通过，用户也可以选择合适的版本（注意最新的Spark 1.5需要搭配Scala 2.10.x）。

## Install Java 7

sudo apt-get purge -y openjdk*

add-apt-repository ppa:webupd8team/java

apt-get update -y

apt-get install -y oracle-java7-installer

## Install Scala 2.10.5

wget http://downloads.typesafe.com/scala/2.10.5/scala-2.10.5.tgz

tar xzvf ./scala-2.10.5.tgz

mv scala-2.10.5 /usr/lib/

## Install Spark 1.5

wget http://d3kbcqa49mib13.cloudfront.net/spark-1.5.0-bin-hadoop2.6.tgz

tar xzvf ./spark-1.5.0-bin-hadoop2.6.tgz

mv ./spark-1.5.0-bin-hadoop2.6/ /usr/lib/spark-1.5.0/

安装上述的软件后，记得在.bashrc或.zshrc添加以下环境变量，否则找不到Java或Spark命令。

export JAVA_HOME=/usr/lib/jvm/java-7-oracle/

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

export SCALA_HOME=/usr/lib/scala-2.10.5export PATH=$PATH:$SCALA_HOME/bin

export SPARK_HOME=/usr/lib/spark-1.5.0export PATH=$PATH:$SPARK_HOME/bin

可以说把包下载下来就可以直接运行Spark了，但为了配置集群模式，我们还需要配置slaves文件和spark-env.sh，添加从节点和主节点的IP地址。

cp /usr/lib/spark-1.5.0/conf/slaves.template /usr/lib/spark-1.5.0/conf/slaves

42.62.101.17042.62.101.103

cp /usr/lib/spark-1.5.0/conf/spark-env.sh.template /usr/lib/spark-1.5.0/conf/spark-env.sh

export JAVA_HOME=/usr/lib/jvm/java-7-oracle/export SCALA_HOME=/usr/lib/scala-2.10.5

export SPARK_MASTER_IP=10.250.7.235由于不能说的原因下载Java和Spark都比较耗时，可以使用UOS的虚拟机快照功能，直接克隆一个虚拟机，这样就无需重复上述的配置了。然后只需要在主节点执行start-all.sh就可以启动集群了，为了允许主节点ssh到从节点启动服务，我们需要把主节点的ssh key手动添加到从节点上。服务启动后，在8080端口就可以看到久违的Spark管理界面。

大数据看过来，UOS上的分布式Spark集群