转载

Apache Kafka 集群环境搭建

Apache Kafka 是一个高吞吐量分布式消息系统，由LinkedIn开源。引用官网对kafka的介绍：“Apache Kafka is publish-subscribe messaging rethought as a distributed commit log.” “publish-subscribe”是kafka设计的核心思想，也是kafka最具特色的地方。publish在kakfa中是一个producer的角色，subscribe是consumer，就像我们生活中的一样，生产商生产出来的产品，消费者一般不能够直接去工厂购买，还需要一个代理经销商，所以同样的在kafka的生态系统中，有一个broker的角色。所以kafka的生态系统大致可以表述如下：

"producer——>broker<——consumer"

大致的介绍就这么多，具体的大家可以移步官网： http://kafka.apache.org/

接下来是老生常谈的问题：为什么要用kafka？kafka适用什么样的场景？我先和大家分享一下自己再项目中的使用总结，有其他想法的同学欢迎补充：

使用kafka的理由：

1.分布式，高吞吐量，速度快（kafka是直接通过磁盘存储，线性读写，速度快：避免了数据在JVM内存和系统内存之间的复制，减少耗性能的对象创建和垃圾回收）

2.同时支持实时和离线两种解决方案（相信很多项目都有类似的需求，这也是Linkedin的官方架构，我们是一部分数据通过storm做实时计算处理，一部分到hadoop做离线分析）。

3.open source (open source 谁不喜欢呢)

4.源码由scala编写，可以运行在JVM上（笔者对scala很有好感，函数式语言一直都挺帅的，spark也是由scala写的，看来以后有空得刷刷scala）

使用场景：

笔者主要是用来做日志分析系统，其实Linkedin也是这么用的，可能是因为kafka对可靠性要求不是特别高，除了日志，网站的一些浏览数据应该也适用。（只要原始数据不需要直接存DB的都可以）

下面就简单的介绍一下kafka集群的搭建过程：

准备环境：至少3台的linux server（笔者是准备了5台redhat版本的cloud server）

第一步:安装JDK/JRE

第二步:安装Zookeeper（kafka自带有zookeeper服务，但是建议大家最好单独建立一个zookeeper集群，可以和其他应用共享，也便于管理）

zookeeper的安装，大家可以参考我的另一篇博文： http://bigcat2013.iteye.com/blog/2175538

第三步：下载kafka ： http://kafka.apache.org/downloads.html （最好下载scala预编译好的package，例如我下的是kafka_2.10-0.8.1.1.tgz，意思就是用scala 2.10预编译好的0.8.1.1版本）

第四步：上传安装包到服务器（可以通过WinSCP等）

第五步：使用 " tar -xzvf kafka_2.10-0.8.1.1.tgz "来解压安装包：

解压后的目录结构：

Apache Kafka 集群环境搭建 第六步 ：修改配置文件

简答配置的话修改/config/server.properties 就可以了

需要配置的属性有：broker.id(标示当前server在集群中的id，从0开始)，port，host.name(当前的server host name)，zookeeper.connect(连接的zookeeper集群)，log.dirs(log的存储目录，记得对应的去建立这个目录)等，其他的一些配置可以看相应的注释：

Apache Kafka 集群环境搭建