转载

Flume+Kafka收集Docker容器内分布式日志应用实践

3.1 Producer层分析

PaaS平台内的服务假设部署在Docker容器内，那么为了满足非功能需求#1，独立另外一个进程负责收集日志，因此不侵入服务框架和进程。采用 Flume NG 来进行日志的收集，这个开源的组件非常强大，可以看做一种监控、生产增量，并且可以发布、消费的模型，Source就是源，是增量源，Channel是缓冲通道，这里使用内存队列缓冲区，Sink就是槽，是个消费的地方。容器内的Source就是执行tail -F这个命令的去利用linux的标准输出读取增量日志，Sink是一个Kafka的实现，用于推送消息到分布式消息中间件。

3.2 Broker层分析

PaaS平台内的多个容器，会存在多个Flume NG的客户端去推送消息到Kafka消息中间件。Kafka是一个吞吐量、性能非常高的消息中间件，采用单个分区按照顺序的写入的方式工作，并且支持按照offset偏移量随机读取的特性，因此非常适合做topic发布订阅模型的实现。这里图中有多个Kafka，是因为支持集群特性，容器内的Flume NG客户端可以连接若干个Kafka的broker发布日志，也可以理解为连接若干个topic下的分区，这样可以实现高吞吐，一来可以在Flume NG内部做打包批量发送来减轻QPS压力，二来可以分散到多个分区写入，同时Kafka还会指定replica备份个数，保证写入某个master后还需要写入N个备份，这里设置为2，没有采用常用的分布式系统的3，是因为尽量保证高并发特性，满足非功能需求中的#4。

3.3 Consumer层分析

消费Kafka增量的也是一个Flume NG，可以看出它的强大之处，在于可以接入任意的数据源，都是可插拔的实现，通过少量配置即可。这里使用Kafka Source订阅topic，收集过来的日志同样先入内存缓冲区，之后使用一个File Sink写入文件，为了满足功能需求#2，可区分来源，按服务、模块和天粒度切分，我自己实现了一个Sink，叫做RollingByTypeAndDayFileSink，源代码放到了 github 上，可以从这个页面下载 jar，直接放到flume的lib目录即可。

原文 http://neoremind.com/2016/05/flumekafka收集docker容器内分布式日志应用实践/

正文到此结束