今年三月,Netflix在博客中推出了一系列 文章 ,介绍了该公司设计的一个运维指标处理平台,名为 Mantis 。在这个平台上可进行细粒度、设备级别的事件推送,并捕获运维相关的指标。它使得Netflix能够 构建 具备极细粒度、实时的数据观察应用,通过这些应用能够深刻地了解Netflix终端用户的设备与AWS服务之间的互操作,这些功能包括运维方面的仪表板,以及通过 SPS 的分析实现的单个节目级别的警告功能。
Netflix现有的服务级别监控系统并不适用于理解与诊断在具体某个特定用户、设备和娱乐节目的环境中,与设备级别行为相关的问题。这些用户、设备与节目的组合形成了一种资产,而数据的捕获、转换、报表生成以及警告就是基于这些资产进行的。由Mantis所驱动的异常检测功能让工程人员能够跟踪每种资产的各种事件,使他们能够快速地对生产环境中的问题进行响应,并得知受到影响的用户群体。而这些能力是作用在一个高处理量、高基数的实时流处理以及批量数据处理的环境中实现的。
Mantis与Netflix现有的基础设施实现了良好的集成,允许开发者及其应用提交用于 生成 事件、处理事件和 查询 事件的各种作业。这些事件来自于约20种不同的数据源,包括 Zuul 和API等服务、个性化和点播服务、以及设备日志数据等等。事件生成者与调用者之间的解耦实现了这两者之间的隔离,为生产环境中的异常检测和修复提供了更大的灵活性。
该系统的 架构 基于Apache Mesos 设计,它提供了一种处于应用开发者与EC2服务器集群之间的抽象层,作为流处理作业计算资源的共享池。应用开发者可通过一系列API或某个图形用户界面对作业进行 配置 ,并可在之后对作业的配置进行编辑,以及查询当前各项指标。应用开发者可以基于这些数据构建自己的 应用程序 ,同时又与Mantis的内部实现细节保持了解耦。
Mantis作业具备不同的消息保证级别,遵循Kafka 语义 ,例如“最多一次”可保证传递,以及“至少一次”可保证传递。曾有人向Mantis的工程师 Neeraj Joshi 询问Mantis为何不使用其他架构方案,包括 Spark Streaming 。Joshi指出,
基于Kafka的实现对于资源的调度具备更多的控制能力,因此我们可以选择更智能的分配方式,例如binpack算法等等(同时也让我们能够对作业的处理进行扩展)。
Mantis的设计中包括一个master/agent的集群模型,并使用了 Frenzo 。Frenzo是一个资源管理器,它最近刚刚成为一个开源项目,作为一个Java的调度器库,它可以通过在Mesos工作集群中新增与删除实例的方式实现 自动伸缩 。伸缩的标准取决于资源使用率指标、作业的调度时间,以及通过资源使用率 仪表板 对作业进行的人工操作等等。Fenzo可基于作业调度时间以及当前的资源使用情况动态地分配EC2实例。作业管理器可提供元数据保留、SLA、部署位置、作业拓扑结构以及生命周期等信息。
Mantis能够执行的任务包括流处理、具有背压感知性的非阻塞性作业、数据转换以及异步结果存储。对于基本的转换/聚合等用例,作业可以定义为一个单独的阶段。而对于高处理量、高基数的事件流,也可以将作业定义为多个阶段进行分片与处理等操作。
Netflix的工程师 Nick Mahilani 提到了Mantis的作业定制化、用户自定义的作业以及内部的实现细节:
系统提供了一些可重用的作业,用户在提交这些作业时能够传递不同的参数集。举例来说,某些作业通过不同参数可连接至不同的来源、根据不同的key进行分组、或基于阀值参数进行异常检测。某些作业还能够接受被动态编译为模板作业的参数……
用户可自行开发以作业方式进行提交的新应用,他们可专注于作业本身的编写,而无需考虑扩展或资源设置方面的问题。在实现Mantis作业时需要引入Mantis运行时库,并实现某个Java接口。该作业将被传递一个RxJava Observable<MantisEvent>对象,作业的开发者可通过Rx操作符对其进行转换。作业的执行结果可传输至管道的下一个阶段,也可让其他作业使用经过转换的流。在部署作业时,用户需要将作业打包为一个.zip文件,随后通过Mantis集群进行分发。
据报告显示,在处理运维用例时,Mantis能够充分利用服务器上的网卡,同时保持很少的CPU占用。
查看英文原文: Operational Data Stream and Batch Processing at Netflix with Mantis