转载

民生银行：ElasticSearch集群生产环境中自动化部署、扩容、升级

需求背景

在建立分布式生产环境的过程中，相对于传统的生产环境，我们会面临更多的挑战：

为了应对这些挑战，我们需要使我们的分布式系统具备以下特点：

解决方案

Elasticsearch Stack中提供的各种beats可以用于采集各种类型的数据，在非linux的环境下使用flume采集数据，也可以使用SDC或者自行开发的app进行数据采集。采集到的数据写入到传输层kafka集群。

特点：以最小的代价快速地将数据传递出来，通常不进行复杂的数据处理，避免对宿主机造成影响。

该层我们选用通用消息中间件kafka集群充当，负责缓存数据，提供多次的数据消费能力，屏蔽数据生产端和消费端的差异。

特点：通用的消息中间件，将数据缓存于该层，避免数据峰涌，避免由于前后端数据处理的速度差异而导致数据丢失。在高可用环境中提供对同一数据的多次消费能力。

该层我们选用SDC集群充当（streamsets data collector），负责将数据从kafka集群读取出来，进行必要的解析、加工、处理，最终存储到Elasticsearch集群。

特点：完全图形化处理，通过拖拽即可完成开发工作，数据处理流程一目了然；对系统资源消耗低，处理速度快；具备back pressure能力，避免短时间大量数据从源端涌入，致使后端数据处理超载；直观查看各个数据处理环节的处理性能及数据处理异常情况。

该层我们选用nginx集群充当，每个物理节点都部署一个独立的nginx节点，负责在对Elasticsearch集群写入时进行安全控制，避免非授权访问。

特点：提供简单的URL级别的安全访问控制。

该层由Elasticsearch集群充当，负责存储海量数据，提供高效数据查询能力。

特点：提供业界领先的海量数据存储、准实时的数据查询、分析能力。在日志分析、全文检索、实时推荐、安全预警、业务分析、机器学习、图计算等方面都能提供强大的处理能力。

该层我们选用nginx集群充当，每个物理节点都部署一个独立的nginx节点，负责在对Elasticsearch集群读取时进行安全控制，避免非授权访问。

特点：提供简单的URL级别的安全访问控制。

在该层我们可以对数据进行图形化展示、实时告警、供应用系统进一步加工处理等。

特定：在基于对Elasticsearch所提供的各种数据查询能力上，我们可以非常方便地进行各种二次开发，满足业务需要。

通过这套数据处理架构，形成了大数据处理从采集-》传输-》处理-》存储-》展现的完整生态。上述数据处理的流程是自上而下，单向流动，这是为搭建高可用集群打下基础。最终可以形成集群多活的高可用环境。

民生银行：ElasticSearch集群生产环境中自动化部署、扩容、升级

整个集群中各个节点的内容都是相同的，关系是对等的，采用的是去中心化的架构设计。
对于Elasticsearch集群来说，少数任意节点出现故障不会导致集群服务异常（故障的master节点数低于master节点总数的一半），这是由Elasticsearch的集群设计所保障的；对于SDC集群来说，由于采用的是无状态节点的部署方式，因此只要集群中还有一个节点存活，则集群就不会停止服务；对于elastalert、curator集群来说，采用的是动态节点选举的方式，因此也能够做到只要集群中还有一个节点存活，则集群就不会停止服务。
可以在任意时刻通过集群中的任意剩余节点恢复故障节点，执行简单的复制操作就可以使集群快速恢复功能。

民生银行：ElasticSearch集群生产环境中自动化部署、扩容、升级

在最内层是服务级别的管理，针对的是各个独立的服务模块，每个模块都能够进行启停、状态查看等操作，模块间独立。
在外面一层是节点级别的管理，通过supervisor将各个独立的服务模块有机地组合起来，实现全部服务或个别服务的管理（启动、停止、状态查看），在服务出现异常退出时自动拉起异常服务。
在最外面一层为集群级别的管理，通过pssh进行远程命令控制，最终实现在集群中的任何一个节点都可以对整个集群的运行状态进行控制（启动、停止、状态查看）。