Docker在1.12版本中开始集成Swarmkit,本文研究在Swarmkit管理的集群中实现IP保持的方法。
Swarmkit是Docker公司推出的Docker集群管理和容器编排工具,自Docker1.12版本,开始集成到Docker-engine里发布。Swarmkit是从Swarm项目发展而来。作为Docker自身的编排系统,可提供服务编排,集群管理和调度功能。
1. 工作节点负责通过执行器运行任务。Swarmkit的默认执行器为Docker容器执行器(Docker Container Executor);
2. 管理节点负责接收和响应用户的请求,将集群状态调节成最终状态。
上图给出了Docker中Swarm集群的组织方式,集群中可包含多个manager节点,这些 manager选举一个节点作为leader节点。由leader节点负责整个集群的管理工作。如果该leader节点出现故障,剩余manager节点会重新选举,新的leader节点会接管集群的管理工作,原leader节点在恢复后可重新加入集群,此时身份是普通manager节点。
Swarmkit在服务编排方面可实现服务状态一致性,为服务按指定策略进行升级及重启等。简单来说,在创建服务后,Swarmkit根据服务类型确定task的数目,并生成相应task,定期检查以保证task数目稳定,并按照调度策略将这些任务分派到各个工作节点上。如果有节点不可用,Leader节点会将该节点上的任务迁移到其它可用节点上继续运行,还可以根据用户命令增加或缩减任务的数目。具体使用方法参见官方文档,下图给出了Swarmkit的内部结构示意图。Swarmkit中通过libnetwork实现对网络资源的管理。
从运维角度来看,为提高运维效率,希望容器在重启或者迁移之后,可以保持容器IP地址不变。这样运维人员可通过具体的静态IP地址来对容器进行维护,升级等操作。
现在的实际情况是,在Docker.10之后的版本中,创建容器时可以通过在命令行使用–ip选项来指定其IP地址。但是目前Swarmkit的实现中,在为某个服务的task分配IP时,并不支持指定IP地址,而是采用随机分配的方式。在任务需要重启或迁移时,并不能保证前后两次任务对应容器所得到的IP地址相同。要提高swarm集群的运维效率,需要一种能保持任务对应容器IP地址的方法。
通过对Docker文档及代码进行阅读,发现在为每个任务创建容器时,容器名称由三部分组成,详见下方代码( daemon/cluster/executor/container/container.go name() )。
return strings.Join([]string{c.task.ServiceAnnotations.Name, fmt.Sprint(c.task.Slot), c.task.ID}, “.”)
其中服务名称与Slot的值是确定的,任务的ID由系统自动生成,每一次重启或迁移都会变化。可以通过容器名称的前两部分唯一标识容器所执行的任务,这里将其称为任务标识 (Swarmkit具体实现中对任务的标识与此类似,不过用到的是ServiceID)。
解决方案的主要思路就是将容器的IP地址与任务标识关联起来,在系统中保存任务标识与Swarmkit为该任务分配IP地址之间的映射关系。在任务重启或迁移时,为新生成的容器分配之前保存在映射关系中的IP地址,这样就可以保持一个任务对应的IP地址不变。
另一个需要考虑的问题是在leader节点不可用后,如何在新的leader节点上恢复之前所保存的映射关系。一种方案是将对应关系写入图1中的状态存储,另一种方案是在leader初始化时从task列表中重建对应关系。这里选择的是后一种方案,因为第一种方案还要学习protobuffer的使用及Swarmkit的分布式存储实现代码,实现起来更复杂。
这里主要讲一下为实现IP保持所要修改代码的位置及功能。
(1)从github上克隆Docker项目,并切换到1.12.1版本,或者直接下载Docker1.12.1的源代码。
(2) 完成代码修改。
(3)进入项目目录,输入make shell,会安装对应1.12.1版本的开发环境,并进入开发环境所在容器。
(4)输入hack/make.sh binary会编译生成二进制可执行文件。在bundle/latest目录下。
(5)安装方法,在编译生成二进制文件后,将文件复制到系统的/usr/bin或/usr/local/bin目录下。宿主机系统最好是刚安装完同版本的Docker或未安装Docker,否则可能会出现Docker启动不成功。
root@vm-1476374349871:/home/ubuntu# docker service ls ID NAME REPLICAS IMAGE COMMAND 7huiwv4vgrs7 helloworld 10/10 alpine ping www.docker.com root@vm-1476374349871:/home/ubuntu# docker node ls ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS bn68rlizdmnchk14fd1ft9izx vm-1473648642890.vm-14736486428901473648642890 Ready Active Reachable bu5cc1nx0aj29q984kkngeftd * vm-1476374349871 Ready Active Leader cm1k85xgzxivrazge4qqteotv vm-1473648611529.vm-14736486115291473648611529 Ready Active Reachable root@vm-1476374349871:/home/ubuntu#
2. 将副本数目增加到10,在其中的一台VM上的task如下
[root@vm-1473648611529 ~]# docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 971b6cca77c4 alpine:latest "ping www.docker.com" 2 minutes ago Up 2 minutes helloworld.2.8hnyq37xrkkvoc1ddzoxxacv5 8773911a47fc alpine:latest "ping www.docker.com" 2 minutes ago Up 2 minutes helloworld.3.9egflo60nvh1i96l1y110ejg7 1315a7fb46d1 alpine:latest "ping www.docker.com" 2 minutes ago Up 2 minutes helloworld.5.e25s0snjn960zu6xlmt3a8cqq [root@vm-1473648611529 ~]#
3. 其中helloworld.3的eth0的IP为10.0.0.3
[root@vm-1473648611529 ~]# docker exec -ti 8773911a47fc sh / # ifconfig eth0 Link encap:Ethernet HWaddr 02:42:0A:00:00:03 inet addr:10.0.0.3 Bcast:0.0.0.0 Mask:255.255.255.0 inet6 addr: fe80::42:aff:fe00:3%32520/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1450 Metric:1 RX packets:29 errors:0 dropped:0 overruns:0 frame:0 TX packets:8 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 RX bytes:2334 (2.2 KiB) TX bytes:648 (648.0 B) eth1 Link encap:Ethernet HWaddr 02:42:AC:12:00:03 inet addr:172.18.0.3 Bcast:0.0.0.0 Mask:255.255.0.0 inet6 addr: fe80::42:acff:fe12:3%32520/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:214 errors:0 dropped:0 overruns:0 frame:0 TX packets:235 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 RX bytes:19918 (19.4 KiB) TX bytes:22174 (21.6 KiB) lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 inet6 addr: ::1%32520/128 Scope:Host UP LOOPBACK RUNNING MTU:65536 Metric:1 RX packets:4 errors:0 dropped:0 overruns:0 frame:0 TX packets:4 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1 RX bytes:334 (334.0 B) TX bytes:334 (334.0 B) / # exit [root@vm-1473648611529 ~]#
4. 将该节点设为不可用,该VM上的任务会重新分配到另外两台机器上
[root@vm-1473648611529 ~]# docker node ls ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS bn68rlizdmnchk14fd1ft9izx vm-1473648642890.vm-14736486428901473648642890 Ready Active Reachable bu5cc1nx0aj29q984kkngeftd vm-1476374349871 Ready Active Leader cm1k85xgzxivrazge4qqteotv * vm-1473648611529.vm-14736486115291473648611529 Ready Active Reachable [root@vm-1473648611529 ~]# docker node update --availability drain cm1k85xgzxivrazge4qqteotv cm1k85xgzxivrazge4qqteotv [root@vm-1473648611529 ~]# docker node ls ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS bn68rlizdmnchk14fd1ft9izx vm-1473648642890.vm-14736486428901473648642890 Ready Active Leader bu5cc1nx0aj29q984kkngeftd vm-1476374349871 Ready Active Reachable cm1k85xgzxivrazge4qqteotv * vm-1473648611529.vm-14736486115291473648611529 Ready Drain Reachable [root@vm-1473648611529 ~]# docker service ls ID NAME REPLICAS IMAGE COMMAND 7huiwv4vgrs7 helloworld 10/10 alpine ping www.docker.com [root@vm-1473648611529 ~]#
5. 其中helloworld.3分配到了leader节点上(helloworld.3.后面的任务ID是不一样的)
[root@vm-1473648642890 ~]# docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 7308b277a77d alpine:latest "ping www.docker.com" About a minute ago Up About a minute helloworld.3.95dodap792m1l2d9of2tg6lt0 8b78496370c3 alpine:latest "ping www.docker.com" 6 minutes ago Up 6 minutes helloworld.6.auphkstyrt0yrrqpile2wjatz 243d15b67aaa alpine:latest "ping www.docker.com" 6 minutes ago Up 6 minutes helloworld.8.e9v6zdshztpvik79zt9tooei9 4d84734f60f9 alpine:latest "ping www.docker.com" 6 minutes ago Up 6 minutes helloworld.10.4rbworz9sa4mvmby6aj2ys8m6 c1a833410e3a alpine:latest "ping www.docker.com" 6 minutes ago Up 6 minutes helloworld.7.5y4urb3mnn9395hzzkxp1ffgs [root@vm-1473648642890 ~]#
6. 查看一下它的eth0的IP,还是10.0.0.3
[root@vm-1473648642890 ~]# docker exec -ti 7308b277a77d sh / # ifconfig eth0 Link encap:Ethernet HWaddr 02:42:0A:00:00:03 inet addr:10.0.0.3 Bcast:0.0.0.0 Mask:255.255.255.0 inet6 addr: fe80::42:aff:fe00:3%32684/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1450 Metric:1 RX packets:8 errors:0 dropped:0 overruns:0 frame:0 TX packets:8 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 RX bytes:648 (648.0 B) TX bytes:648 (648.0 B) eth1 Link encap:Ethernet HWaddr 02:42:AC:12:00:06 inet addr:172.18.0.6 Bcast:0.0.0.0 Mask:255.255.0.0 inet6 addr: fe80::42:acff:fe12:6%32684/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:101 errors:0 dropped:0 overruns:0 frame:0 TX packets:125 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 RX bytes:9416 (9.1 KiB) TX bytes:11674 (11.4 KiB) lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 inet6 addr: ::1%32684/128 Scope:Host UP LOOPBACK RUNNING MTU:65536 Metric:1 RX packets:4 errors:0 dropped:0 overruns:0 frame:0 TX packets:4 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1 RX bytes:334 (334.0 B) TX bytes:334 (334.0 B) / # exit [root@vm-1473648642890 ~]#
7. 重新将刚才的VM设为可用,并将leader重启
[root@vm-1473648611529 ~]# docker node update --availability active cm1k85xgzxivrazge4qqteotv cm1k85xgzxivrazge4qqteotv [root@vm-1473648611529 ~]# [root@vm-1473648642890 ~]# reboot
8. 在其它VM上查看,大约半分钟后,已经选举出新的leader,且task的数目已经恢复到10个
[root@vm-1473648611529 ~]# docker node ls ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS bn68rlizdmnchk14fd1ft9izx vm-1473648642890.vm-14736486428901473648642890 Down Active Unreachable bu5cc1nx0aj29q984kkngeftd vm-1476374349871 Ready Active Leader cm1k85xgzxivrazge4qqteotv * vm-1473648611529.vm-14736486115291473648611529 Ready Active Reachable [root@vm-1473648611529 ~]# docker service ls ID NAME REPLICAS IMAGE COMMAND 7huiwv4vgrs7 helloworld 10/10 alpine ping www.docker.com [root@vm-1473648611529 ~]#
9. 此时原leader节点上的任务已经迁移到重新变为可用的节点上
[root@vm-1473648611529 ~]# docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 1d3a252664d8 alpine:latest "ping www.docker.com" 23 seconds ago Up 22 seconds helloworld.3.25sfbbqwqggvpdwbst8dgqmza 8ca053e810c1 alpine:latest "ping www.docker.com" 23 seconds ago Up 22 seconds helloworld.6.3z3dy1w216eu2833sdpxjz7mr a1744b36a51d alpine:latest "ping www.docker.com" 24 seconds ago Up 23 seconds helloworld.10.28ikt9ajopam1lf11c6vm0b91 981ba2a3ffec alpine:latest "ping www.docker.com" 24 seconds ago Up 23 seconds helloworld.7.7ce9f4ia66op0pi08h897vsw8 7af8cbd1e07c alpine:latest "ping www.docker.com" 30 seconds ago Up 27 seconds helloworld.8.339nbcym1ttyvnytm6ls65zuu [root@vm-1473648611529 ~]#
10. 再查看一个helloworld.3的eth0的IP, 仍然是10.0.0.3
[root@vm-1473648611529 ~]# docker exec -ti 1d3a252664d8 sh / # ifconfig eth0 Link encap:Ethernet HWaddr 02:42:0A:00:00:03 inet addr:10.0.0.3 Bcast:0.0.0.0 Mask:255.255.255.0 inet6 addr: fe80::42:aff:fe00:3%32585/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1450 Metric:1 RX packets:26 errors:0 dropped:0 overruns:0 frame:0 TX packets:8 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 RX bytes:2036 (1.9 KiB) TX bytes:648 (648.0 B) eth1 Link encap:Ethernet HWaddr 02:42:AC:12:00:06 inet addr:172.18.0.6 Bcast:0.0.0.0 Mask:255.255.0.0 inet6 addr: fe80::42:acff:fe12:6%32585/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:218 errors:0 dropped:0 overruns:0 frame:0 TX packets:224 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:0 RX bytes:20106 (19.6 KiB) TX bytes:20984 (20.4 KiB) lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 inet6 addr: ::1%32585/128 Scope:Host UP LOOPBACK RUNNING MTU:65536 Metric:1 RX packets:4 errors:0 dropped:0 overruns:0 frame:0 TX packets:4 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1 RX bytes:334 (334.0 B) TX bytes:334 (334.0 B) / # exit [root@vm-1473648611529 ~]#
本文首发在 天云软件
参考链接
Docker项目 https://github.com/docker/docker
Docker文档 https://docs.docker.com
SwarmKit知多少——来自源码世界的深入解读 http://dockone.io/article/1791
Docker发布集群工具SwarmKit http://www.infoq.com/cn/news/2 ... rmKit