当前位置：首页 > news >正文

数字IC前端学习笔记：脉动阵列的设计方法学（以串行FIR滤波器为例）

news 2025/4/28 18:05:35

相关阅读数字IC前端_日晨难再的博客-CSDN博客https://blog.csdn.net/weixin_45791458/category_12173698.html?spm=1001.2014.3001.5482

引言

脉动结构（也称为脉动阵列）表示一种有节奏地计算并通过系统传输数据的处理单元(PEs)网络。这些处理单元有规律地泵入泵出数据以保持规则的数据流。因此，脉动阵列的特征是模块化和规则化，这对于VLSI设计来说是一个重要的性质。脉动阵列可以作为与主机配合的协处理器，从主机接收数据进行计算并将最终结果返回主机。这个操作类似心脏的血液流动，因此被称为“脉动”。

典型情况下，脉动阵列的所有处理单元是相同的，且全流水的（即PE包含寄存器等延时单元），通常只包含局部互联。然而，为了增加脉动阵列的实用性，一些设计也存在放宽。这些放宽包括：不仅使用局部互连，还使用邻近（接近，但不是最近的）互连，使用数据广播操作，以及在系统中使用不同的处理单元，特别是在边界处。通过这些放宽措施，可以为数字信号处理(DSP)应用设计一系列模块化、规则和高效的数据驱动阵列架构。

本文以串行FIR滤波器为例介绍了脉动阵列设计方法学，其中可以使用线性映射或投影技术为任何给定的规则迭代算法设计多种流线架构。

脉动阵列设计方法学

流线架构是通过在规则依赖图上使用线性映射技术来设计的。依赖图中的边表示前置约束。一个依赖图(DG)如果在任何节点中某个方向上的边的存在，意味着在依赖图中的所有节点在同一方向上都有相应的边，那么该依赖图被称为规则依赖图。

作为一个例子，考虑如下所示的3抽头FIR滤波器的依赖图，如图1所示。

$y(n) = \omega _{0}x(n) + \omega _{1}x(n - 1) + \omega _{2}x(n - 2)$

图1 FIR滤波器的依赖图（空间表示）

这个依赖图有3个基本的边（用 $\boldsymbol{e}$ 表示）：输入用向上的边用向量表示为(0, 1)，系数用向右的边用向量表示为(1, 0)，输出用下右下角移动的边用向量表示为(1, -1)。由于依赖图中的所有节点都包含这3种边，因此该依赖图是规则的。

该依赖图对应于一个空间表示，因为其中没有为任何计算分配时间不。映射技术将空间表示转换为空间-时间表示，在空间-时间表示中，每个节点被映射到某个处理单元，并且被调度到某个时间步。

脉动阵列设计方法学将一个N维的依赖图映射到一个低维的脉动阵列。在本文中，只考虑一级映射，即将一个N维的依赖图映射到一个(N-1)维的脉动阵列（对于FIR滤波器而言是将2维依赖图映射到1维脉动阵列）。

下面定义脉动阵列设计中的基本向量：

投影向量（也称迭代向量）： $\boldsymbol{d} = (d_{1}, d_{2})$ ，如果两个节点间的距离为投影向量的整数倍，则他们由同一个处理单元计算。
处理器空间向量： $\boldsymbol{p} = (p_{1}, p_{2})$ ，任何坐标为 $\boldsymbol{I} = (i, j)$ 的节点由处理单元 $\boldsymbol{p} \cdot \boldsymbol{I}$ 计算。
调度向量： $\boldsymbol{s} = (s_{1}, s_{2})$ ，任何坐标为 $\boldsymbol{I} = (i, j)$ 的节点在时间步 $\boldsymbol{s} \cdot \boldsymbol{I}$ 计算。
硬件利用率： $\boldsymbol{HUE} = 1 / ( \boldsymbol{s} \cdot \boldsymbol{d})$ ，这是因为同一个处理单元的两次计算相隔 $\boldsymbol{s} \cdot \boldsymbol{d}$ 。

对于给定的问题，可以通过选择不同的投影向量、处理器空间向量和调度向量来设计多种脉动阵列，但这些向量必须满足以下推导出的两个可行性约束。

1、处理器空间向量和投影向量必须彼此正交（内积为0）。如果节点A和B间的距离等于投影向量的整数倍，即 $\boldsymbol{I_{A}} - \boldsymbol{I_{B}} = n\boldsymbol{d}$ ，则这两个节点由同一个处理单元计算，所以 $\boldsymbol{p} \cdot \boldsymbol{I_{A}} = \boldsymbol{p} \cdot \boldsymbol{I_{B}}$ ，即 $\boldsymbol{p} \cdot (\boldsymbol{I_{A}} - \boldsymbol{I_{B}}) = 0 \rightarrow n\boldsymbol{p} \cdot \boldsymbol{d} = 0$ 。

2、如果节点A和B被映射到同一个处理器，那么它们不能同时计算，所以 $\boldsymbol{s} \cdot \boldsymbol{I_{A}} \neq \boldsymbol{s} \cdot \boldsymbol{I_{B}}$ ，即 $\boldsymbol{s} \cdot (\boldsymbol{I_{A}} - \boldsymbol{I_{B}}) \neq 0 \rightarrow n\boldsymbol{s} \cdot \boldsymbol{d} \neq 0$ 。

将空间表示转换为空间-时间表示时，引入处理器轴 $\boldsymbol{j^{'} }= \boldsymbol{p} \cdot \boldsymbol{I}$ ，时间步轴 $\boldsymbol{t^{'}} = \boldsymbol{s} \cdot \boldsymbol{I}$ 。

将依赖图映射到脉动阵列时，每个依赖图中的边 $\boldsymbol{e}$ 对应脉动阵列中的一个延时边，方向 $\boldsymbol{p} \cdot \boldsymbol{e}$ ，延时值为 $\boldsymbol{s} \cdot \boldsymbol{e}$ 。

设计1（输入广播、权重保持、输出移动）

设计1通过选择如下投影向量、处理器向量和调度向量得到：

$\boldsymbol{d} = (1, 0)\, \, \, \, \, \boldsymbol{p} = (0, 1)\, \, \, \, \, \boldsymbol{s} = (1, 0)$

可以很容易地验证，这些向量满足提到的两个可行性约束，并且可得到：

任何坐标为 $\boldsymbol{I} = (i, j)$ 的节点由处理单元 $\boldsymbol{p} \cdot \boldsymbol{I} = j$ 计算，即同一条水平线上的节点由同一个处理单元计算。
任何坐标为 $\boldsymbol{I} = (i, j)$ 的节点在时间步 $\boldsymbol{s} \cdot \boldsymbol{I} = i$ 计算。
硬件利用率为 $\boldsymbol{HUE} = 1 / ( \boldsymbol{s} \cdot \boldsymbol{d}) = 1$ 。

在空间-时间表示中，处理器轴 $\boldsymbol{j^{'} }= \boldsymbol{p} \cdot \boldsymbol{I}$ 对应空间表示中的 $\boldsymbol{j}$ 轴，时间步轴 $\boldsymbol{t^{'}} = \boldsymbol{s} \cdot \boldsymbol{I}$ 对应空间表示中的 $\boldsymbol{i}$ 轴，如图2所示。

图2 FIR滤波器的依赖图（空间-时间表示）

由图2可以看出，输入在同一时间步会被广播到所有的处理单元，权重会保持在相应处理单元中而输出则出现在不同的处理单元和时间步。

将依赖图映射到脉动阵列时，边映射的情况如表1所示。

表1 设计1的边映射情况

$\boldsymbol{e}$	$\boldsymbol{p}$	$\boldsymbol{s}$	$\boldsymbol{p} \cdot \boldsymbol{e}$ （方向）	$\boldsymbol{s} \cdot \boldsymbol{e}$ （延迟）
输入：(0, 1)	(0, 1)	(1, 0)	1	0
权重：(1, 0)			0	1
输出：(1, -1)			-1	1

图3给出了设计1的脉动阵列框图，其中D代表有延时单元（如寄存器）的边。

图3 设计1的脉动阵列框图

设计1的具体实现如图4所示。

图4 设计1的具体实现

Verilog实现

module PE #(parameter WEIGHT = 8'shA5   // 定义参数，默认为8位有符号常数A5
)(input wire clk,                    // 时钟信号input wire rst,                    // 重置信号input wire signed [7:0] data_in,   // 8位有符号输入数据input wire signed [31:0] sum_in,   // 32位有符号加法输入值output wire signed [31:0] sum_out  // 32位有符号输出结果
);reg signed [7:0]  weight = WEIGHT;   // 使用参数传递的值来代替内部常数reg signed [31:0] mul_result;        // 存储乘法结果reg signed [31:0] add_result;        // 存储加法结果reg signed [31:0] reg_out;           // 存储输出寄存器的值// 乘法操作（组合逻辑）always @(*) beginmul_result = data_in * weight;    // 乘法操作，乘以PE内部的常数值end// 加法器操作always @(*) beginadd_result = mul_result + sum_in; // 乘法结果与加法输入相加end// 输出寄存器always @(posedge clk or posedge rst) beginif (rst) beginreg_out <= 32'b0;      // 复位时清零输出寄存器end else beginreg_out <= add_result; // 输出加法器的结果endend// 输出信号assign sum_out = reg_out;endmodulemodule FIR_ststolic_arrays (input wire clk,                   // 时钟信号input wire rst,                   // 重置信号input wire signed [7:0] data_in,  // 顶层输入数据output wire signed [31:0] sum_out // PE0的输出
);// 中间信号wire signed [31:0] sum_out_1_wire;  // PE1的sum_out连接到PE0的sum_inwire signed [31:0] sum_out_2_wire;  // PE2的sum_out连接到PE1的sum_in// 实例化PE0PE #(.WEIGHT(8'shA5)  // 设置PE0的weight值) PE0 (.clk(clk),.rst(rst),.data_in(data_in),        // 顶层的data_in连接到PE0的data_in.sum_in(sum_out_1_wire),  // PE0的sum_in连接到PE1的sum_out.sum_out(sum_out)         // PE0的sum_out输出到顶层sum_out_0);// 实例化PE1PE #(.WEIGHT(8'shB7)  // 设置PE1的weight值) PE1 (.clk(clk),.rst(rst),.data_in(data_in),       // 顶层的data_in连接到PE1的data_in.sum_in(sum_out_2_wire), // PE1的sum_in连接到PE2的sum_out.sum_out(sum_out_1_wire) // PE1的sum_out输出到PE0的sum_in);// 实例化PE2PE #(.WEIGHT(8'shC3)  // 设置PE2的weight值) PE2 (.clk(clk),.rst(rst),.data_in(data_in),       // 顶层的data_in连接到PE2的data_in.sum_in(32'b0),          // PE2的sum_in设为0.sum_out(sum_out_2_wire) // PE2的sum_out输出到PE1的sum_in);endmodule

本文参考《VLSI Digital Signal Processing Systems Design and Implementation》，作者为
Keshab K.Parhi。

查看全文

http://www.mrgr.cn/news/79190.html