并发 IO 问题一直是后端编程中的技术挑战,从最早的同步阻塞Fork进程,到多进程/多线程,到现在的异步IO、协程。PHP程序员因为有强大的LAMP框架,对底层方面的知识知之甚少,本文目的就是详细介绍PHP进行并发IO编程的各种尝试,最后再介绍Swoole的使用,深入浅出全面理解并发IO问题。
最早的服务器端程序都是通过多进程、多线程来解决并发 IO 的问题。进程模型出现的最早,从 Unix 系统诞生就开始有了进程的概念。 最早的服务器端程序一般都是 Accept 一个客户端连接就创建一个进程,然后子进程进入循环同步阻塞地与客户端连接进行交互,收发处理数据。
多线程模式出现要晚一些,线程与进程相比更轻量,而且线程之间是共享内存堆栈的,所以不同的线程之间交互非常容易实现。比如聊天室这样的程序,客户端连接之间可以交互,比聊天室中的玩家可以任意的其他人发消息。用多线程模式实现非常简单,线程中可以直接读写某一个客户端连接。而多进程模式就要用到管道、消息队列、共享内存实现数据交互,统称进程间通信( IPC )复杂的技术才能实现。
代码实例:
多进程 / 线程模型的流程是
这种模式最大的问题是,进程 / 线程创建和销毁的开销很大。所以上面的模式没办法应用于非常繁忙的服务器程序。对应的改进版解决了此问题,这就是经典的 Leader-Follower 模型。
代码实例:
它的特点是程序启动后就会创建 N 个进程。每个子进程进入 Accept ,等待新的连接进入。当客户端连接到服务器时,其中一个子进程会被唤醒,开始处理客户端请求,并且不再接受新的 TCP 连接。当此连接关闭时,子进程会释放,重新进入 Accept ,参与处理新的连接。
这个模型的优势是完全可以复用进程,没有额外消耗,性能非常好。很多常见的服务器程序都是基于此模型的,比如 Apache 、 PHP-FPM 。
多进程模型也有一些缺点。
另外有一些场景多进程模型无法解决,比如即时聊天程序( IM ),一台服务器要同时维持上万甚至几十万上百万的连接(经典的 C10K 问题),多进程模型就力不从心了。
还有一种场景也是多进程模型的软肋。通常 Web 服务器启动 100 个进程,如果一个请求消耗 100ms , 100 个进程可以提供 1000qps ,这样的处理能力还是不错的。但是如果请求内要调用外网 Http 接口,像 QQ 、微博登录,耗时会很长,一个请求需要 10s 。那一个进程 1 秒只能处理 0.1 个请求, 100 个进程只能达到 10qps ,这样的处理能力就太差了。
有没有一种技术可以在一个进程内处理所有并发 IO 呢?答案是有,这就是 IO 复用技术。
其实 IO 复用的历史和多进程一样长, Linux 很早就提供了 select 系统调用,可以在一个进程内维持 1024 个连接。后来又加入了 poll 系统调用, poll 做了一些改进,解决了 1024 限制的问题,可以维持任意数量的连接。但 select/poll 还有一个问题就是,它需要循环检测连接是否有事件。这样问题就来了,如果服务器有 100 万个连接,在某一时间只有一个连接向服务器发送了数据, select/poll 需要做循环 100 万次,其中只有 1 次是命中的,剩下的 99 万 9999 次都是无效的,白白浪费了 CPU 资源 。
直到 Linux 2.6 内核提供了新的 epoll 系统调用,可以维持无限数量的连接,而且无需轮询,这才真正解决了 C10K 问题。现在各种高并发异步 IO 的服务器程序都是基于 epoll 实现的,比如 Nginx 、 Node.js 、 Erlang 、 Golang 。像 Node.js 这样单进程单线程的程序,都可以维持超过 1 百万 TCP 连接,全部归功于 epoll 技术。
IO 复用异步非阻塞程序使用经典的 Reactor 模型, Reactor 顾名思义就是反应堆的意思,它本身不处理任何数据收发。只是可以监视一个 socket 句柄的事件变化。
Reactor 有 4 个核心的操作:
Reactor 只是一个事件发生器,实际对 socket 句柄的操作,如 connect/accept 、 send/recv 、 close 是在 callback 中完成的。具体编码可参考下面的伪代码:
Reactor 模型还可以与多进程、多线程结合起来用,既实现异步非阻塞 IO ,又利用到多核。目前流行的异步服务器程序都是这样的方式:如
协程从底层技术角度看实际上还是异步IO Reactor模型,应用层自行实现了任务调度,借助Reactor切换各个当前执行的用户态线程,但用户代码中完全感知不到Reactor的存在。
PHP 的优点:
另外 PHP 有超过 20 年的历史,生态圈是非常大的,在 Github 可以找到很多代码。
PHP 的缺点:
所以 PHP
基于上面的扩展使用纯 PHP 就可以完全实现异步网络服务器和客户端程序。但是想实现一个类似于多 IO 线程,还是有很多繁琐的编程工作要做,包括如何来管理连接,如何来保证数据的收发原则性,网络协议的处理。另外 PHP 代码在协议处理部分性能是比较差的,所以我启动了一个新的开源项目 Swoole ,使用 C 语言和 PHP 结合来完成了这项工作。灵活多变的业务模块使用 PHP 开发效率高,基础的底层和协议处理部分用 C 语言实现,保证了高性能。它以扩展的方式加载到了 PHP 中,提供了一个完整的网络通信的框架,然后 PHP 的代码去写一些业务。它的模型是基于多线程 Reactor+ 多进程 Worker ,既支持全异步,也支持半异步半同步。
实例代码在 https://github.com/swoole/swoole-src 主页查看。
异步 TCP 服务器:
在这里 new swoole_server 对象,然后参数传入监听的 HOST 和 PORT ,然后设置了 3 个回调函数,分别是 onConnect 有新的连接进入、 onReceive 收到了某一个客户端的数据、 onClose 某个客户端关闭了连接。最后调用 start 启动服务器程序。 swoole 底层会根据当前机器有多少 CPU 核数,启动对应数量的 Reactor 线程和 Worker 进程。
异步客户端:
客户端的使用方法和服务器类似只是回调事件有 4 个, onConnect 成功连接到服务器,这时可以去发送数据到服务器。 onError 连接服务器失败。 onReceive 服务器向客户端连接发送了数据。 onClose 连接关闭。
设置完事件回调后,发起 connect 到服务器,参数是服务器的 IP,PORT 和超时时间。
同步客户端:
同步客户端不需要设置任何事件回调,它没有 Reactor 监听,是阻塞串行的。等待 IO 完成才会进入下一步。
异步任务:
异步任务功能用于在一个纯异步的 Server 程序中去执行一个耗时的或者阻塞的函数。底层实现使用进程池,任务完成后会触发 onFinish ,程序中可以得到任务处理的结果。比如一个 IM 需要广播,如果直接在异步代码中广播可能会影响其他事件的处理。另外文件读写也可以使用异步任务实现,因为文件句柄没办法像 socket 一样使用 Reactor 监听。因为文件句柄总是可读的,直接读取文件可能会使服务器程序阻塞,使用异步任务是非常好的选择。
异步毫秒定时器
这 2 个接口实现了类似 JS 的 setInterval 、 setTimeout 函数功能,可以设置在 n 毫秒间隔实现一个函数或 n 毫秒后执行一个函数。
异步 MySQL 客户端
swoole 还提供一个内置连接池的 MySQL 异步客户端,可以设定最大使用 MySQL 连接数。并发 SQL 请求可以复用这些连接,而不是重复创建,这样可以保护 MySQL 避免连接资源被耗尽。
异步 Redis 客户端
异步的 Web 程序
程序的逻辑是从 Redis 中读取一个数据,然后显示 HTML 页面。使用 ab 压测性能如下:
同样的逻辑在 php-fpm 下的性能测试结果如下:
WebSocket 程序
swoole 内置了 websocket 服务器,可以基于此实现 Web 页面主动推送的功能,比如 WebIM 。有一个开源项目可以作为参考。 https://github.com/matyhtf/php-webim
异步编程一般使用回调方式,如果遇到非常复杂的逻辑,可能会层层嵌套回调函数。协程就可以解决此问题,可以顺序编写代码,但运行时是异步非阻塞的。腾讯的工程师基于 Swoole 扩展和 PHP5.5 的 Yield/Generator 语法实现类似于 Golang 的协程,项目名称为 TSF ( Tencent Server Framework ),开源项目地址: https://github.com/tencent-php/tsf 。目前在腾讯公司的企业 QQ 、 QQ 公众号项目以及车轮忽略的查违章项目有大规模应用 。
TSF 使用也非常简单,下面调用了 3 个 IO 操作,完全是串行的写法。但实际上是异步非阻塞执行的。 TSF 底层调度器接管了程序的执行,在对应的 IO 完成后才会向下继续执行。
PHP 和 Swoole 都可以在 ARM 平台上编译运行,所以在树莓派系统上也可以使用 PHP+Swoole 来开发网络通信的程序。