Redis原理篇之网络模型
Redis原理篇之网络模型
文章目录
- Redis原理篇之网络模型
- 1 用户空间和内核空间
- 2 阻塞IO
- 3 非阻塞IO
- 4 IO多路复用
- 4.1 IO多路复用-select
- 4.2 IO多路复用-poll
- 4.3 IO多路复用-epoll
- 4.4 总结
- 5 信号驱动IO
- 6 异步IO
- 7 同步和异步
- 8 Redis网络模型
- 8.1 Redis是单线程吗?为什么要用单线程
- 8.2 Redis单线程及多线程网络模型变更
1 用户空间和内核空间
任何Linux发行版,其系统内核都是Linux。我们的应用都需要通过Linux内核与硬件交互。
为了避免用户应用导致冲突甚至内核崩溃,用户应用与内核是分离的:
-
进程的寻址空间会划分为两部分:内核空间、用户空间
- 不管哪一种空间都无法直接访问物理内存,而是直接分配虚拟内存空间,映射到不同的物理内存,就像前面提到的页表。所以内核、用户空间访问虚拟空间的时候就需要去访问虚拟地址了。
- 这个地址是无符号的整数,从0开始,最大值取决于CPU的地址总线和寄存器的带宽,比如一个32位系统,带宽也就是32,所以地址的最大值就是232 ,寻址范围0~232 ,一个地址对应一个字节,所以存储空间有232字节,4GB。
-
用户空间 只能执行受限的命令(Ring3),而且不能直接调用系统资源,必须通过内核提供的接口来访问
-
内核空间 可以执行特权命令(Ring0),调用一切系统资源
Linux系统为了提高I0效率,会在用户空间和内核空间都加入缓冲区 :
- 写数据时,要把用户缓冲数据拷贝到内核缓冲区,然后写入设备
- 读数据时,要从设备读取数据到内核缓冲区,然后拷贝到用户缓冲区
在《UNIX网络编程》一书中,总结归纳了5种I0模型:
- 阻塞IO (Blocking IO)
- 非阻塞IO (Nonblocking IO)
- IO多路复用 (IO Multiplexing)
- 信号驱动IO (Signal Driven IO)
- 异步IO (Asynchronous IO)
2 阻塞IO
可以看到,阻塞I0模型中,用户进程在两个阶段都是阻塞状态。
3 非阻塞IO
顾名思义,非阻塞IO的recvfrom操作会立即返回结果而不是阻塞用户进程。
- 在一阶段等待数据的过程中,IO是非阻塞的,不断反复调用recvfrom。
- 在二阶段,当数据准备就绪时,IO是阻塞的,等待数据从内核拷贝到用户空间。
可以看到,非阻塞IO模型中,用户进程在第一个阶段是非阻塞,第二个阶段是阻塞状态。虽然是非阻塞,但性能并没有得到提高。而且忙等机制会导致CPU空转,CPU使用率暴增。
4 IO多路复用
无论是阻塞I0还是非阻塞10,用户应用在一阶段都需要调用recvfrom来获取数据,差别在于无数据时的处理方案:
- 如果调用recvfrom时,恰好没有数据,阻塞10会使进程阻塞,非阻塞10使CPU空转,都不能充分发挥CPU的作用
- 如果调用recvfrom时,恰好有数据,则用户进程可以直接进入第二阶段,读取并处理数据
比如服务端处理客户端Socket请求时,在单线程情况下,只能依次处理每一个socket,如果正在处理的socket恰好未就绪(数据不可读或不可写),线程就会被阻塞,所有其它客户端socket都必须等待,性能自然会很差。
要提高效率有几种办法?
- 方案一:增加更多服务员(多线程
- 方案二:不排队,谁想好了吃什么(数据就绪了),服务员就给谁点餐(用户应用就去读取数据)
文件描述符(File Descriptor) :简称FD,是一个从0开始递增的无符号整数,用来关联Linux中的一个文件。在Linux中一切皆文件,例如常规文件、视频、硬件设备等,当然也包括网络套接字(Socket)。
I0多路复用: 是利用单个线程来同时监听多个FD,并在某个FD可读、可写时得到通知,从而避免无效的等待,充分利用CPU资源。
- 首先使用select去监听多个sockets,等待其中一个或多个数据准备就绪,然后返回
- 调用recvfrom指向数据就绪的sockets,将数据从内核空间拷贝到用户空间,此过程仍然阻塞
既然两个过程还是会出现阻塞,那性能比前两节IO模型高在哪里呢?
-
前两节调用的是recvfrom去监听socket,它只能监听一个
-
而IO多路复用高就高在不只是在等待一个socket的时候阻塞,而是同时监听多个socket,阻塞时间会减少,因为等待的时间是数据准备就绪最慢的那个socket,减少了无效等待。
不过监听FD的方式、通知的方式又有多种实现,常见的有:
- select
- poll
- epoll
差异:
差异:
- select和poll只会通知用户进程有FD就绪,但不确定具体是哪个FD,需要用户进程逐个遍历FD来确认
- epoll则会在通知用户进程FD就绪的同时,把已就绪的FQ写入用户空间
4.1 IO多路复用-select
select是Linux中最早的I/0多路复用实现方案:
4.2 IO多路复用-poll
poll模式对select模式做了简单改进,但性能提升不明显,部分关键代码如下:
4.3 IO多路复用-epoll
4.4 总结
5 信号驱动IO
信号驱动I0 是与内核建立SIGI0的信号关联并设置回调,当内核有FD就绪时,会发出SIGIO信号通知用户,期间用户应用可以执行其它业务,无需阻塞等待。
当有大量10操作时,信号较多,SIGIO处理函数不能及时处理可能导致信号队列溢出
而且内核空间与用户空间的频繁信号交互性能也较低。
6 异步IO
异步I0 的整个过程都是非阻塞的,用户进程调用完异步API后就可以去做其它事情,内核等待数据就绪并拷贝到用户空间后才会递交信号,通知用户进程。
可以看到,异步10模型中,用户进程在两个阶段都是非阻塞状态。
7 同步和异步
I0操作是同步还是异步,关键看数据在 内核空间与用户空间的拷贝过程 (数据读写的IO操作),也就是阶段二
是同步还是异步:
由于只有异步I/O的第二个阶段是异步的,所以只有异步I/O才是真的异步。
8 Redis网络模型
8.1 Redis是单线程吗?为什么要用单线程
Redis到底是单线程还是多线程?
- 如果仅仅聊Redis的核心业务部分(命令处理),答案是单线程
- 如果是聊整个Redis,那么答案就是多线程
在Redis版本迭代过程中,在两个重要的时间节点上引入了多线程的支持
- Redis v4.0:引入多线程异步处理一些耗时较长的任务,例如异步删除命令unlink
- Redis v6.0:在核心网络模型中引入 多线程,进一步提高对于多核CPU的利用率
思考:
1.为什么Redis要选择单线程?
- 抛开持久化不谈,Redis是纯内存操作,执行速度非常快,它的性能瓶颈是网络延迟而不是执行速度,因此多线程并不会带来巨大的性能提升。
- 多线程会导致过多的上下文切换,带来不必要的开销
- 引入多线程会面临线程安全问题,必然要引入线程锁这样的安全手段,实现复杂度增高,而且性能也会大打折扣
8.2 Redis单线程及多线程网络模型变更
Redis通过 IO多路复用 来提高网络性能,并且支持各种不同的多路复用实现,并且将这些实现进行封装,提供了统一的高性能事件库API库 AE:
这里的ssfd是否可读有两种条件
- 可读就是有客户端连接来了:此时先建一个监听FD
- 非可读就是 web已有的客户端请求接口进行数据访问的(数据就绪可以读了)
创建epoll_create实例,得到ssfd,一旦ssfd可读,就说明有客户端链连接来了,用accept()接收,并监听此FD。此过程中,如果有监听的FD就绪了。就会记录在list_head中,list_head有数据,就会不断取出里面的数据进行读取操作,然后作出相应响应。
看Redis单线程网络模型的整个流程
两种Socket
- 一开始只有Server Socket,绑定的是连接应答处理器,一旦有客户端连接就会响应,接收客户端socket并注册客户端FD。所以aeEventLoop注册的FD就有个了。
- 注册了客户端socket,就有client socket,绑定的是命令请求处理器,一旦数据准备就绪,则开始读取对应FD的数据并做出响应。
这里实现不想听 听不懂了。
Redis 6.0版本中引入了多线程,目的是为了提高IO读写效率。因此在 解析客户端命令、写响应结果时 采用了多线程。 核心的命令执行IO多路复用模块依然是由主线程执行。
- 命令请求处理器:主线程会将多个不同的客户端分发给多个不同的线程,由他们去并行的解析请求当中的数据,把它解析成命令。真正执行命令还是主线程一个人执行。
- 命令回复处理器:当写结果的时候也会多线程回复事件,从队列中取出命令多线程写。