当前位置：首页 > news >正文

[论文阅读-综述]Supervised Speech Separation Based on Deep Learning: An Overview

news 2025/12/15 1:34:32

基于深度学习的监督语音分离：综述
出版：IEEE
核心：使用语音分离将目标语音信号与噪声混合分离的计算

本文用于对该文章的学习，主要是对内容的理解翻译与笔记

1. 语音分离介绍

语音分离的目标：将目标语音与背景干扰分开
应用举例：听力修复、移动通信、强大的西东语音和说话人识别
语音分离（speech separation）通常被称为“cocktail party problem”（鸡尾酒会问题）->术语

语音分离是声源分离的一种特殊情况
从感知上讲，源分离对应于听觉流分离

听觉场景分析（ASA）：分离声学混合物并讲来自同一声源的信号分组的感知过程（如：听众将具有两个交替正弦波音调的信号分成两个流）
- 同步组织（simultaneous organization）：同步组织集成并发声音
- 顺序组织（sequential organization）：集成跨时间的声音
ASA主要原则
- Proximity in frequency and time 频率和时间的接近度
- harmonicity 谐波
- common amplitude and frequency modulation 共同的幅度和频率调制
- onset and offset synchrony 起始和偏移同步
- common location 共同位置
- prior knowledge 先验知识
语音隔离效果评估
- 测量语音接受阈值（获得50%可理解度分数所需的信噪比水平）
  通过测量受到各种音调、宽带噪声和其他人声干扰时的人类可理解度得分，发现音调的干扰程度不及宽带噪音大
目标语音会受到的干扰：其他声源的加性噪声、来自表面反射的混响
语音分离根据传感器或麦克风的数量分类
- 单声道（单麦克风）方法
  - 语音增强
    Df：通过分析语音和噪声的一般统计特性，并根据噪声估计从噪声语音中估计出清晰语音
    最简单且广泛使用的增强方法：谱减法（spectral subtraction）——从嘈杂语音的功率谱中减去估计噪声的功率谱
    为估计背景噪声，语音增强技术通常假设背景噪声是静态的（即频谱特性随时间不变，或至少比语音更加静态）
  - 计算听觉场景分析（CASA）
    基于听觉场景分析的感知原理，利用了音高和起始时间等分组线索
    如：串联算法 通过交替进行音高估计和基于音高的分组来分离有声语音
- 基于阵列（多麦克风）方法
  波束成形（Beamforming）或空间滤波（spatial filtering）：通过适当的阵列配置增强从特定方向到达的信号，从而衰减来自其他方向的干扰
  
  波束：一组天线系统的电磁波辐射模式
  波束成形：建立天线辐射模式的技术
  
  最简单的波束成型器是延迟技术和求和技术，将来自目标方向的多个麦克风信号相位相加，并利用相位差来减弱来自其他方向的信号。
  噪声抑制的程度取决于阵列的间距、大小、配置——通常随麦克风数量和阵列长度的增加，抑制效果会增加
  ->目标和干扰源重叠或彼此靠近时，空间滤波无法应用
  ->混响条件下，波束成形的效用大大降低（因为混响会模糊声源的定向性）
将语音分离视为一种监督学习问题
受CASA中时间频率掩码（T-F掩码）概念的启发
T-F掩码将二维掩码（加权）引用于源混合物的时频表示，以分离目标源
CASA的一个主要目标是理想二进制掩码（IBM），他指示目标信号是否在时频表示的T-F单元中占主导地位
嘈杂环境中，理想二进制掩码极大地提高了正常听力和听力受损者的语音可懂性
以理想二进制掩码作为计算目标，语音分离变成了二进制分类 -> 监督学习
这种情况下，IBM被用作训练过程中的期望信号或目标函数
在测试过程中，学习机器旨在估计IBM，尽管IBM在监督语音分离中作为第一个训练目标，但绝不是唯一的训练目标
监督语音分离算法可以大致分为这三个组成部分
1. 学习机制
2. 训练目标
3. 声学特征
预览：
- 2、3、4节介绍监督语音分离的三个主要方面
- 5节介绍单声道分离算法
- 6节介绍基于阵列的算法
- 7节总结

2. 分类器和学习机制

用于监督式语音分离的几中DNN模型：
前馈多层感知器（MLP）、卷积神经网络（CNN）、循环神经网络（RNN）、生成对抗网络（GAN）

MLP

神经网络中最流行的模型，具有从输入层到输出层的前馈连接，逐层连接，并且连续的层之间是全连接
MLP是感知器的扩展，引入隐藏层，使用反向栓波训练。
预测误差由损失函数测量，MLP用于分类时，常用交叉熵损失函数；用于二分类，常用均方误差
随着层数增加，MLP表示能力增强。理论上一个具有2个隐藏层的MLP可以逼近任何函数

DNN

DNN从随机初始化的连接权重和偏置开始训练是困难的，因为存在梯度消失问题，所以训练过程中较低层的学习效果较差。（这也解释了在DNN出现之前，具有单个隐藏层的MLP是最常用的神经网络模型）
Hinton使用DNN训练的关键思想：使用无标签数据进行逐层无监督 预训练，以在使用由标签数据进行监督学习（或微调）之前正确初始化DNN -> 提出模型：受限玻尔兹曼机（RBM）-> 通过逐层预训练RBM可以改善后续的监督学习
后来的解决方法是使用修正线性单元（ReLU）代替传统的Sigmoid激活函数（ReLU将模型神经元的加权输入的线性和转换为神经元的输出，具有ReLU的适度深度的MLP可以在大量训练数据下进行有效训练，而无需无监督预训练）

CNN

CNNs包含了模式识别中的一些已知不变性，如平移（位移）不变性
适合处理具有局部模式的信号
一个典型的CNN架构是卷积层和池化层的级联。
卷积层提取局部特征，并通过池化层减少特征分辨率和对局部变化的敏感性
卷积层由多个特征图组成，每个特征图都学习提取局部特征，不论其在前一层中的位置如何，通过权重共享实现：同一模块内的神经元被约束为具有相同的连接权重，尽管它们的感受野(receptive field)不同。(在这种情况下，神经元的感受野指的是与神经元连接的前一层的局部区域)
每个卷积层后面都会跟着一个子采样层，该层对卷积层中神经元的感受野进行局部平均或最大化处理。
子采样的作用：降低分辨率并减少对局部变化的敏感性。

RNN

允许在隐藏单元之间建立循环（反馈）连接，适合处理像语音信号这样具有时间依赖性的序列数据。
RNN将输入样本视为一个序列，并对随时间变化的情况进行建模（与前馈网络处理每个输入样本独立的方式不同）
语音信号具有较强的时间结构，当前帧中的信号受到先前帧中的信号的影响。-> RNN是学习语音的时间动态的自然选择
通过循环连接，RNN引入了时间维度，该维度具有灵活性和无限可扩展性（从某种程度上说，RNN可以被视为具有无限深度的DNN）
这些循环连接通常通过时间反向传播进行训练
存在问题：容易受到梯度消失或梯度爆炸的问题的影响
缓解问题：具有长短期记忆（LSTM）的RNN引入了带有门控的记忆单元，以便促进随时间的信息流动，保持相关的上下文信息。

记忆单元有三个门控
- 输入门：应将多少当前信息添加到记忆单元中
- 遗忘门：控制应保留多少先前信息
- 输出门

GANs

具有同时训练的模型 -> 这个框架类似于一个两个玩家对抗的游戏，其中最小最大是一种经过验证的策略
- 一个生成模型G：学习对标记数据建模（例如从噪声语音样本到它们的干净对应样本的映射）
- 一个判别模型D：学习区分 生成的样本和来自训练数据的目标样本（通常是一个二元分类器）
训练目的
- G：学习一个准确的映射，使得生成的数据可以很好的模仿真实数据以欺骗D
- D：学习更好地区分真实数据和G生成的合成数据之间的差异

这个游戏用的竞争和对抗性学习驱使2个模型不断提高准确性，直到生成的样本与真实样本无法区分

特点
判别器的训练目标是提高生成语音和目标语音的区分能力
生成器的目标是欺骗判别器，使得生成语音信号无法与真实信号区分开
关键思想：是利用鉴别器来塑造生成器的损失函数
应用：语音增强，用于直接增强语音的时域信号
局限性：GAN的训练过程通常较为复杂，可能会出现不稳定性（如模式崩溃）

学习模型选择

性能对比
- MLP：适用于简单任务，但缺乏时间动态建模能力
- CNN：适合处理时频域特征，但对序列建模的能力有限
- RNN/LSTM：擅长时间序列数据，适合建模语音信号的时序依赖关系
- GAN：适用于生成高质量的语音信号，但需要复杂的训练过程

模型	适用场景	使用建议
MLP	简单的分类、回归任务；语音增强的基本掩码估计	适用于计算资源受限的场景；可作为预处理模块使用
CNN	频谱特征处理任务；噪声鲁棒性高的语音增强；端到端语音分离	与RNN结合处理动态任务效果更佳；适用于时频特征表示丰富的环境。
RNN/LSTM	时间序列建模任务；动态背景噪声分离；说话人跟踪	用于需要捕捉全局时序上下文的场景，适合低信噪比和长时间依赖的任务。
GAN	高质量语音生成；时域信号分离；复杂噪声下的语音增强	可用于生成语音信号的复杂任务，但需要大规模计算资源和强大的泛化能力。

3. 训练目标

主要有两类训练目标

基于掩蔽的目标：描述了干净语音与背景干扰之间的时频关系
- 特点：利用时间-频率（T-F）关系，通过掩码调整混合信号的T-F单元，从而分离目标语音。
- 优点：掩码类目标的泛化能力较强，特别是在噪声条件下表现优异。
- 缺点：需要混合信号的相位信息用于重建语音，相位估计不准确可能影响分离质量。
基于映射的目标：对应于干净语音的频谱表示
- 特点：直接将混合信号的频谱或其他特征映射到目标信号的频谱或特征。
- 优点：简单直观，不依赖于掩码设计，特别适合信噪比极低的场景。
- 缺点：对训练数据的依赖性较强，在泛化能力上可能不如掩码类目标。

对比

特性	基于掩码的目标（Masking-Based）	基于映射的目标（Mapping-Based）
目标类型	通过生成掩码来分离目标语音和干扰声	通过直接映射输入信号（如频谱）到目标语音来进行分离
输出形式	输出为二进制或比率掩码，表示每个时间频率单元是否包含目标信号	输出为目标语音的频谱、特征或时间波形
任务类型	适用于分类任务，目标是判断每个时间频率单元是否属于目标语音	适用于回归任务，目标是估计目标语音的频谱或波形
模型复杂度	相对较低，通常使用简单的分类模型（如神经网络）	通常需要复杂的模型，如深度神经网络（DNN）进行频谱映射
对噪声的鲁棒性	对噪声环境有较好的适应性，尤其是当噪声和目标语音在时间频率上分离时	在低信噪比环境下的表现较差，因为直接映射可能会丢失目标语音的细节
泛化能力	泛化能力较强，尤其是噪声类型变化较大的场景（如多噪声环境）	在低信噪比环境下的泛化能力可能较差，通常依赖于训练数据集的多样性（噪声、说话人等）
语音质量	语音质量较低，尤其是使用二进制掩码时，可能丢失相位信息	语音质量较高，直接映射目标语音的频谱或波形，保留了更多语音细节和相位信息
训练难度	训练过程较为简单，尤其是掩码生成任务较为直观	训练难度较高，需要复杂的特征映射和更多的数据来捕捉信号的复杂关系

选择

基于掩码：适合复杂噪声/信噪比高的场景；适合快速实现和训练
but：语音质量上逊色于映射方法
基于映射：适合要求高语音质量的任务（语音重建、远场语音增强）；适合信噪比低的场景
but：需要更多训练资源、更复杂的模型、更高计算资源

场景描述	选择基于掩码的目标	选择基于映射的目标
信噪比较高，背景噪声单一	使用 IBM 或 IRM，简单且高效，尤其是在常见噪声环境下（如电话噪声）	可以选择 TMS（目标幅度谱），直接恢复目标语音的频谱，效果较好
复杂噪声环境（如多种噪声源）	使用 IRM 或 PSM，掩码可以更好地处理多种背景干扰，分离更精确	TMS 和 GF-TPS 在这种情况下可能效果较差，尤其是在噪声强度不均的条件下
目标语音和噪声非常接近	使用 IRM 或 SMM，软掩码可以更精细地区分目标信号与背景噪声	基于映射的目标在这种环境下可能更难区分目标语音与干扰，表现较差
需要高语音质量	PSM 在语音质量要求较高的情况下表现较好，尤其在保留语音细节方面	TMS 或 cIRM 可以更好地恢复语音细节，尤其是对于高质量语音的重建
训练数据资源有限，噪声单一	使用 IBM，训练简单且对数据要求低，适用于小规模数据集	基于映射的目标通常需要大量多样化的训练数据，适合大数据场景
实时系统或低延迟需求	使用 IBM 或 SMM，掩码计算简单，适合实时处理任务	映射方法计算量较大，可能不适用于低延迟或实时任务
泛化到未见噪声环境	使用 IRM 或 SMM，这些掩码可以有效地处理新噪声类型并提高泛化能力	基于映射的目标通常对噪声类型变化敏感，因此泛化能力相对较弱

语音分离中常用的评估指标
- 信号级别：评估指标旨在量化信号增强或干扰减少的程度
  除了传统的信噪比（SNR）外，分离信号中的语音失真（损失）和噪声残留也可以单独测量
  一组著名的评估指标包括SDR（信号与失真比）、SIR（信号与干扰比）和SAR（信号与伪像比）
- 感知级别：听众对分离信号的感知
  建议使用HIT-FA率作为以IBM（理想二进制掩码）为参考的评估指标
  HIT表示IBM中正确分类的以语音为主的时间频率单元的百分比，而FA（false-alarm）表示错误分类的以噪声为主的单元的百分比。
  HIT-FA率与语音可懂度有很好的相关性
  最常用的可懂度指标是STOI（short-time objective intelligibility）：衡量参考（干净）语音和分离语音之间的短时段时域包络之间的相关性
各种训练目目标示意图如下

图2. 对于TIMIT语音混合-5 dB SNR的工厂噪声，各种训练目标的示意图。

3.1 理想二进制掩码IBM

在监督式语音分离中使用的第一个训练目标是理想二进制掩码（Ideal Binary Mask，IBM），受到听觉掩蔽现象和听觉场景分析中的独占分配原则的启发
IBM在噪声信号的二维时频表示（如耳蜗图或频谱图）上定义：
$\begin{equation} \begin{cases} 1, & if\ SNR(t,f)\ >\ LC \\ 0, & otherwise \end{cases} \end{equation}$
其中t和f分别表示时间和频率

含义：
若T-F单元内的信噪比超过本地标准(LC)或阈值，则IBM将该单位的值设置为1；否则，设为0
IBM掩蔽在噪声中显著提高了正常听觉和听力受损听者的语音可懂性
IBM将每个T-F单元标记为目标主导或干扰主导。因此，IBM的估计自然可以视为一个监督分类问题
IBM估计中常用的成本函数是交叉熵

3.2 目标二进制掩码TBM

与IBM比较
- 与IBM类似：TBM对所有的时频单位进行二进制标记
- 与IBM不同：TBM通过将每个时频单元中的目标语音能量与固定干扰进行比较，来确定标签
也可以显著改善噪声中的语音可懂性

3.3 理想比例掩码IRM（Ideal Ratio Mask）

与对每个时频单元进行硬标签不同，IRM可以被视为IBM的软版本

公式
$\begin{equation*} IRM\ = {\left({\frac{{S{{\left({t,f} \right)}^2}}}{{S{{\left({t, f} \right)}^2} + N{{\left({t,f} \right)}^2}}}} \right)^\beta } \tag{2} \end{equation*}$
- $S(t,f)^2$ ：时频单元内的语音能量
- $N(t,f)^2$ ：时频单元内的噪音能量
- $\beta$ ：可调参数，用于缩放掩码，通用选0.5

假设 $S(t,f)^2$ 和 $N(t,f)^2$ 是不相关的，通过平方根，IRM在每个时频单元中保留了语音能量

这个假设对于加性噪声是成立的，但对于包络干扰（例如房间混响）并不成立（尽管后期混响可以合理地视为不相关的干扰）

在公式（2）中，如果没有取平方根，IRM类似于经典的维纳滤波器，它是功率谱中目标语音的最优估计器。
通常使用均方误差（MSE）作为IRM估计的损失函数。

3.4 频谱幅度掩蔽SMM

SMM是基于干净语音和噪声语音的短时傅里叶变换（STFT）幅度定义的：
$\begin{equation*} SMM\left({t,f} \right)\ = \frac{{\left| {S\left({t,f} \right)} \right|}}{{\left| {Y\left({t,f} \right)} \right|}} \tag{3} \end{equation*}$
$∣ S (t, f) ∣$ ：干净语音频谱幅度
$∣ Y (t, f) ∣$ ：噪声语音频谱幅度

NT：不同于IRM，SMM没有上界为1

为了获得分离的语音，我们将SMM或其估计应用于噪声语音的频谱幅度，并使用噪声语音的相位（或清晰语音相位的估计）合成分离的语音

3.5 相位敏感掩蔽PSM

通过引入相位的度量扩展了SMM
$\begin{equation*} PSM\left({t,f} \right)\ = \frac{{\left| {S\left({t,f} \right)} \right|}}{{\left| {Y\left({t,f} \right)} \right|}}\ \cos \theta\tag{4} \end{equation*}$
$\theta$ ：净语音相位和噪声语音相位之间的差异
PSM中包含相位差异可以提高信噪比，并倾向于比SMM更好地估计干净语音

3.6 复杂理想比率掩蔽cIRM

复杂理想比率掩模（cIRM）是一个在复数域中的理想掩模
前面提到的掩模不同，它可以完美地从噪声语音中重建出清晰语音：
$\begin{equation*} S\ = \ cIRM*Y\tag{5} \end{equation*}$
$S 和 Y$ 分别表示清晰语音和噪声语音的STFT（短时傅里叶变换），而 ‘∗’ 表示复数乘法
解出掩模组件的定义为：
$\begin{equation*} cIRM\ = \frac{{{Y_r}{S_r} + {Y_i}{S_i}}}{{Y_r^2 + Y_i^2}}\ + i\frac{{{Y_r}{S_i} - {Y_i}{S_r}}}{{Y_r^2 + Y_i^2}}\tag{6} \end{equation*}$

Y：噪声语音；S：干净语音
i：虚部；r：实部

因此，cIRM有一个实部和一个虚部，可以在实域中分别估计。
由于复数域的计算，掩模值变得无界-> 应使用某种形式的压缩来限制掩模值，例如双曲正切函数或S形函数。

Williamson等人观察到，以笛卡尔坐标表示时，cIRM的实部和虚部都存在结构，而以极坐标表示时，幅度频谱图存在结构，而相位频谱图不存在结构
如果没有清晰的结构，通过监督学习进行直接相位估计将变得困难

cIRM的估计提供了相位估计的能力，而PSM估计不具备这一属性

3.7 目标幅度谱（Target Magnitude Spectrum, TMS）

TMS，即 $∣ S (t, f) ∣$ ，指干净语音的幅度谱，是一种基于映射的训练目标。
在这种情况下，监督学习旨在从噪声语音的幅度谱估计出干净语音的幅度谱。
可以使用功率谱或其他形式的频谱（例如梅尔频谱）代替幅度谱，通常会对其进行对数操作以压缩动态范围并便于训练。
一种显著的TMS形式是将对数功率谱 归一化 为零均值和单位方差，然后将估计的语音幅度与噪声相位结合，产生分离的语音波形。
损失函数：使用MSE估计，或使用最大似然来训练一个明确模拟输出相关性的TMS估计器

3.8 Gammatone频率目标功率谱（GF-TPS）

一种基于映射的训练目标
与TMS类似，用于语音分离任务

不同于在谱图上定义的TMS，GF-TPS是在Gammatone滤波器组上定义的
具体而言，它是基于Gammatone滤波器组对干净语音信号的响应的功率。
通过估计GF-TPS，可以通过Gammatone滤波器组的逆变换将其转换为分离的干净语音波形。

3.9 信号逼近（Signal Approximation）

信号逼近的思想是训练一个比率掩码估计器，使得干净语音的频谱幅度与估计语音的频谱幅度之间的差异最小化：
$\begin{equation*} SA\ \left({t,f} \right) = \ {\left[ {RM\left({t,f} \right)\left| {Y\left({t,f} \right)} \right| - \ \left| {S\left({t,f} \right)} \right|} \right]^2}\tag{7} \end{equation*}$
$RM (t, f)$ ：SMM的估计

信号逼近（Signal Approximation）可以被解释为一种将比率掩码和频谱映射相结合的目标，旨在最大化信噪比

对于信号逼近目标，通过2阶段训练可以实现更好的分离性能
1. 使用SMM作为目标训练学习机器
2. 通过最小化（7）式的损失函数对学习机器进行微调

语音分离中常用的评估指标

在语音分离任务中，评估指标用于量化分离效果，常见的评估指标包括信号级别和感知级别的度量。

信号级别评估指标：

源到失真比（SDR, Source-to-Distortion Ratio）：
- 定义：衡量分离后的信号与原始目标信号之间的差异，SDR越大，表明信号分离效果越好。
源到干扰比（SIR, Source-to-Interference Ratio）：
- 定义：评估目标信号与干扰信号之间的相对强度。SIR越大，表示干扰的抑制越好。
源到伪影比（SAR, Source-to-Artifacts Ratio）：
- 定义：衡量分离过程中由于分离误差而产生的伪影（如噪声）的强度，SAR越大，表示伪影越少。

感知级别评估指标：

短时目标语音可懂度指数（STOI, Short-Time Objective Intelligibility）：
- 定义：STOI评估语音的可懂度，计算分离语音与原始干净语音在时间域中的相关性。STOI值越高，表示语音越容易被听懂。
语音质量评价（PESQ, Perceptual Evaluation of Speech Quality）：
- 定义：PESQ是一个感知语音质量的指标，通过对比分离语音与清洁语音的响度谱来评估语音质量。PESQ值越高，表示语音质量越好。
语音失真率（HIT−FA rate）：
- 定义：在理想二进制掩码（IBM）估计中，HIT表示正确分类为目标的时间频率单元比率，FA表示错误分类为目标的噪声单元比率。HIT−FA率越高，表示分离效果越好。

信号级别评估指标 vs 感知级别评估指标选择对比

特性	信号级别评估指标	感知级别评估指标
目标	评估分离信号与目标信号之间的物理差异	评估分离信号的感知质量，主要关注语音的可懂度和质量
评价侧重	偏重于技术和信号处理层面的性能，如信号的失真、干扰和伪影	偏重于用户体验，衡量分离语音的听觉效果与语音质量的主观感知
指标示例	SDR（源到失真比）、SIR（源到干扰比）、SAR（源到伪影比）	STOI（短时目标语音可懂度指数）、PESQ（语音质量评价）、HIT-FA
适用场景	适用于算法优化和信号质量分析，尤其是在调试、对比不同算法时	适用于评估语音分离算法在实际应用中的效果，尤其是在提高用户体验时
优势	评估精确度高，可以量化信号的恢复质量；适用于数据分析和算法调优	更符合实际听感，能够更好地反映分离效果对听众的感知影响
缺点	可能忽略人类听觉系统对信号细节的感知差异，较少关注语音的清晰度与自然度	计算较复杂，且需要依赖主观听感，有时可能不够精确

如何选择评估指标：

场景描述	选择信号级别评估指标	选择感知级别评估指标
调试与算法优化	使用 SDR、SIR 和 SAR 等信号级别指标，帮助量化算法的性能与效果	不推荐，感知级别指标在算法调试时不如信号级别指标有效
多算法性能对比	使用 SDR、SIR 和 SAR 等，便于技术层面的对比分析	可结合 PESQ、STOI 等感知指标，从用户体验角度对比分离效果
语音分离质量测试	可使用 SDR 等信号级别指标评估信号恢复效果	推荐使用 STOI、PESQ 等感知级别指标，考虑到分离后语音的可懂度和质量
用户体验评估	不推荐，信号级别指标更多关注信号恢复效果，忽略听感质量	使用 STOI、PESQ 等，帮助了解用户的实际听感体验，尤其是在语音增强等应用中
高质量语音恢复	使用 SDR、SAR 等评估语音分离的信号失真和伪影	可以结合 PESQ 等评估语音恢复的感知质量
实时应用（如语音通话系统）	使用 SIR 和 SAR 评估噪声抑制和伪影去除效果	使用 STOI 来确保分离语音的可懂度，并结合 PESQ 提高语音质量感知

总结

进行两个评估：
- 使用不同的训练目标分离的语音根据STOI和PESQ进行评估
  分别用于预测语音的可懂性和语音质量。
- 代表性的语音增强算法和监督非负矩阵分解（NMF）算法进行评估，作为基准。
结论

在客观可读性方面，以掩蔽为基础的训练目标整体上优于基于映射的训练目标
在语音质量方面，比值掩蔽的表现优于二进制掩蔽，软掩码（如IRM和SMM）比硬掩码（如IBM）效果更好
理想比率掩码（IRM）和光谱幅度掩码（SMM）是性能最佳的目标

注意SMM与TMS之间的比较，二者除了SMM在分母中使用了 $∣ Y (t, f) ∣$ 之外是相同的
- 较好的SMM估计可能归因于目标幅度谱对干扰信号和信噪比不敏感，而SMM是敏感的
- TMS中的多对一映射使得其估计比SMM更加困难
对无界频谱幅度的估计往往会放大估计误差

IRM和SMM是首选目标
基于DNN的比率掩蔽性能明显优于监督NMF和无监督语音增强

选择策略
- 环境单一、信噪比高：使用简单目标如IBM，便于实现。
- 复杂噪声、多样环境：推荐IRM或SMM，这些掩码目标在复杂场景中性能稳定。
- 高质量语音恢复：使用PSM或cIRM，特别是对于远场或混响语音。
- 任务紧耦合（如特定领域）：结合TMS或SA进行特定优化，例如语音去混响或语音清晰度提升。
- 低资源场景：映射目标如TMS或GF-TPS，对模型复杂度要求低。

4. 特征

特征作为输入和学习机器在监督学习中起到互补的作用
- 特征具有辨别能力时，它们对学习机器的要求较低，可以更好地完成任务
- 强大的学习机器对特征的要求较低
极端情况
- 特征使分类任务线性可分时，只需要像Rosenblatt的感知器这样的线性分类器
- 如果分类器 能够学习到适当的特征，那么原始形式的输入（例如音频中的波形）就足够了
早期监督语音分离研究中仅使用一些特征举例
- 双耳分离中的双耳时间差（ITD）、双耳级别（强度）差异（IID）
- 单耳分离中的基于音高的特征、振幅调制谱图（AMS）
单耳特征举例
- MFCC
- 伽马音频频率倒谱系数（GFCC）
- 感知线性预测（PLP）
- 相对谱变换PLP（RASTA-PLP）
有研究通过使用组Lasso进行特征选择，推荐一组互补特征集：AMS、RASTA-PLP和MFCC（以及如果可以可靠估计的音高）

广泛研究的特征

评估广泛的声学特征在低信噪比下的监督语音分离中的效果
现有特征列表包括：梅尔域、线性预测、伽马音频域、过零率、自相关、中时滤波、调制和基于音高的特征

梅尔域特征包括：MFCC和增量谱倒谱系数
- MFCC（梅尔频率倒谱系数）：基于人类听觉特性提取
- DSCC（增量谱倒谱系数）：类似MFCC，但在梅尔谱上应用增量操作
线性预测
- PLP（感知线性预测）：结合听觉模型的谱特征
- RASTA-PLP（相对谱变换PLP）：增加时间滤波，减少短时扰动的影响
伽马音频域
- GF（伽马通滤波）：通过伽马通滤波器提取子带信号
- GFCC（伽马通频率倒谱系数）：将GF经过离散余弦变换压缩频谱
- GFMC（伽马通频率调制系数）：在GFCC基础上提取调制信息
过零率
- 峰值幅度过零率（ZCPA）特征：从使用伽马音滤波器组得到的子带信号中计算零交叉间隔和相应的峰值幅度
自相关特征
- 包括：相对自相关序列MFCC（RAS-MFCC）、自相关序列MFCC（AC-MFCC）、相位自相关MFCC（PAC-MFCC）——它们都将MFCC过程应用于自相关域中
中期时间滤波
- PNCC（功率归一化倒谱系数）：使用非线性功率归一化
- SSF（缓慢变化分量与包络下降抑制）：增强语音成分
调制域特征
- GFB（Gabor滤波器组）：捕获语音的调制模式。
- AMS特征
基于音高的特征：根据音高跟踪计算T-F级别特征，并利用周期性和瞬时频率来区分以语音为主的T-F单元和以噪声为主的单元
多分辨率耳蜗图（MRCG）：（本文提出）在不同的频谱时间分辨率下计算四个耳蜗图，以提供局部信息和更广泛的上下文

特征分析与选择

在监督语音分离任务中，选择适合的特征需要根据应用场景的需求和特征本身的特性来进行分析和取舍。以下是对“广泛研究的特征”部分提到的特征的详细分析，并结合其适用场景提出特征选择建议。

1. 梅尔频率域特征

MFCC：经典的语音特征，能有效捕获语音的听觉感知特性，适用于大多数语音处理任务。
DSCC：在动态变化的背景噪声中性能更优，因为它能够捕捉时间变化特性。

应用场景：

MFCC：常用于稳定噪声环境下的语音分离，如室内录音。
DSCC：适用于噪声动态变化较大的场景，例如移动设备或交通环境中。

2. 线性预测特征

PLP：通过仿生的听觉模型增强语音特性，减少背景噪声的干扰。
RASTA-PLP：通过时间滤波进一步抑制短时噪声波动。

应用场景：

PLP：适用于低噪声环境中需要增强语音清晰度的场景，如语音识别前处理。
RASTA-PLP：对短时波动噪声（如风声、机械振动）效果更好，适用于工业场景或噪声不稳定环境。

3. 伽马通滤波特征

GF：对语音信号的子带频谱响应提供细粒度特性，具有较高的分辨率。
GFCC：通过降维提高计算效率，适用于实时处理场景。
GFMC：对调制频率信息敏感，可用于捕获语音韵律特性。

应用场景：

GF：适用于要求高分辨率分析的场景，例如语音质量评估。
GFCC：适合实时语音分离应用，如移动设备的实时语音增强。
GFMC：可用于分析语音的感知特性，适合听力辅助设备或语音感知研究。

4. 零交叉特征

ZCPA：利用语音的过零点信息对噪声鲁棒性较好，但对语音信号的细节捕捉能力较弱。

应用场景：

ZCPA：适合低带宽或资源受限的设备，例如嵌入式系统或物联网设备中的简单语音处理。

5. 自相关特征

RAS-MFCC、AC-MFCC、PAC-MFCC：这些特征通过自相关域捕捉语音信号的时间结构和相位信息，增强了分离性能。

应用场景：

自相关特征：适合处理强混响环境中的语音分离任务，如会议室或大型大厅的语音处理。

6. 中时域滤波特征

PNCC：通过归一化和非线性处理提升了语音信号的鲁棒性。
SSF：抑制包络变化，对缓慢变化的噪声和背景干扰表现优异。

应用场景：

PNCC：适合复杂噪声场景，例如多种干扰声源同时存在的环境。
SSF：适合语音与缓慢变化背景音（如空调噪声）的分离。

7. 调制域特征

GFB：利用Gabor滤波捕获语音调制信息，适用于分析语音动态变化。
AMS：经典调制特征，能够有效区分语音和背景噪声。

应用场景：

GFB：适合需要分析语音动态特性的场景，例如情感语音识别。
AMS：适用于通用的语音分离任务，特别是复杂背景下的语音增强。

8. 基音特征

PITCH：对基音的时间和频率特性敏感，可以区分语音的声源。

应用场景：

PITCH：适合目标语音与背景语音在基音特性上差异较大的场景，例如说话人分离任务。

特征选择策略

特征	特点	适用场景
MFCC	捕捉语音的听觉感知特性，经典特征	稳定噪声环境，如室内录音或语音识别任务
DSCC	能捕捉语音的动态变化，增强对噪声的鲁棒性	噪声动态变化较大的环境，如交通、户外
PLP	模拟人耳感知特性，增强语音特征	低噪声环境中的语音分离与增强
RASTA-PLP	通过时间滤波抑制短时噪声波动	噪声不稳定的环境，如工业噪声或动态背景
GF	捕捉高分辨率的频谱响应，适合细粒度分析	高精度语音质量评估和语音分析
GFCC	降维后提高效率，适合实时处理	实时语音增强，特别是在移动设备上
GFMC	捕捉语音的调制频率信息	音韵分析、情感语音分析等
ZCPA	对噪声鲁棒性强，适用于简单处理	资源受限的设备，如嵌入式系统和物联网设备中的语音处理
RAS-MFCC	自相关特征，增强时间结构和相位信息	强混响环境中的语音分离，如会议室或大型大厅
PNCC	增强语音信号的鲁棒性，减少噪声干扰	复杂噪声环境下的语音分离，如多种干扰声源同时存在的环境
SSF	对缓慢变化的背景噪声有效抑制	语音与缓慢变化背景噪声（如空调噪声）混合的环境
GFB	捕捉语音调制特性，适合动态变化分析	情感语音识别、情绪分析等
AMS	经典特征，能有效区分语音与背景噪声	通用语音分离任务，尤其是复杂背景下的语音增强
PITCH	捕捉基音的时间和频率特性，能区分语音源	多说话人分离任务，尤其是目标语音和背景语音在基音特性上差异明显

根据场景选择

实时性要求：选择计算复杂度低的特征（如GFCC、PNCC）。
强噪声环境：选择对噪声鲁棒性强的特征（如DSCC、PNCC）。
混响环境：选择增强时间特性的特征（如自相关特征、GFB）。
多说话人分离：选择能够区分语音声源的特征（如PITCH、GF）。

特征融合

在一些复杂的场景中，单一特征可能不足以处理多维度挑战，可以通过特征融合来提升分离效果。例如：

PNCC + LOG-MEL：增强鲁棒性与感知特性。
GFCC + PITCH：同时捕捉频谱特性和声源区分能力。

其他

特征处理方案
- 特征经过自回归滑动平均（ARMA）滤波器进行后处理，并使用固定的基于MLP的IBM掩码估计器进行评估。
- 估计的掩码通过分类准确率和HIT−FA率进行评估
  - gammatone域特征（MRCG、GF和GFCC）在准确性和HIT−FA率方面一直表现优于其他特征，其中MRCG表现最佳
  - 通过比较GF和GFCC特征，可以发现离散余弦变换（DCT）对倒谱压缩、调制提取 不起作用
- 音高特征的性能较差主要是由于在低信噪比下的不准确估计（因为实际音高被证明具有较高的区分能力）
另一项特征研究：考虑了房间混响、语音降噪、说话人分离
- 方式：使用了一个固定的DNN，训练用于估计IRM，并以STOI相对于未处理的噪声和混响语音的改善程度来评估结果
- 添加的特征：监督分离中的常用特征对数频谱幅度（LOG-MAG）和对数梅尔谱特征（LOG-MEL）以及没有进行任何特征提取的波形信号（WAV）
- 混响：使用了模拟的房间脉冲响应（RIRs）和记录的RIRs，混响时间高达0.9秒
- 降噪：评估分为匹配噪声和不匹配噪声两种情况
  - 匹配噪声：每个非平稳噪声的前半部分用于训练，后半部分用于测试
  - 不匹配噪声：使用全新的噪声进行测试
特征组合结论：
语音增强：最有效的特征集包括PNCC、GF和LOG-MEL
说话人分离：包括PNCC、GFCC和LOG-MEL

5. 单声道分离算法 Monaural Separation Algorithms

算法类型	算法方法	应用场景	优缺点
单声道分离	- DNN（深度神经网络）	- 噪声环境下的语音增强	优点：较低的计算复杂度，适用于低成本设备；缺点：处理复杂环境下性能有限（如多个说话人同时发声）
	- 基于频谱映射（如DNN和自动编码器）	- 听力受损者使用的助听器 - 通信系统中的噪声抑制	优点：对不同噪声类型有较好的适应性；缺点：低SNR条件下效果可能下降，且对多个说话人的分离性能差
	- 基于循环神经网络（RNN，LSTM）	- 语音增强和去混响	优点：能够处理时间动态，适应变化的环境；缺点：需要较高的计算资源，训练时间较长
	- 生成对抗网络（GAN）	- 端到端增强系统	优点：全新的监督学习框架，能够生成高质量的增强信号；缺点：训练困难，效果不一定稳定
多声道分离	- 波束成形（Beamforming）	- 会议、电话、视频会议等场景中的语音提取	优点：能够有效分离来源于不同方向的语音；缺点：需要多个麦克风，空间布局要求高
	- 多麦克风阵列技术	- 语音识别系统中的背景噪声抑制 - 自适应回声消除	优点：在较高的SNR条件下效果很好；缺点：空间配置要求高，环境对声源定位的干扰较大
	- 基于深度学习的阵列处理技术（如DNN结合多通道）	- 智能语音助手、会议系统等	优点：结合深度学习，能够提升复杂环境下的分离效果；缺点：计算开销较大，训练数据要求高
混合方法	- 多阶段深度学习（例如T-F掩码估计+频谱映射）	- 处理复杂环境中的语音增强和去混响	优点：综合了多个方法的优势，能够处理更复杂的任务；缺点：模型训练复杂，可能需要大量的计算资源

5.1 语音增强（Speech Enhancement）

早期DNN的引入语音增强的研究
- DNN+SE
  - 方法：输入信号通过伽马通滤波器分解为多个子带，提取时间-频率单元（T-F单元）的特征，并利用DNN对每个子带单独分类。在DNN训练之后，将输入特征和最后一个隐藏层的学习特征进行串联，并将其输入线性SVM以高效地估计子带IBM
  - 结果：DNN作为分类器或特征提取器，在T-F单元级别的分类精度上显著优于传统方法
- 后续扩展为两阶段DNN架构
  1. 估计每个T-F单元的后验概率掩码（posterior mask）
  2. 利用局部上下文（时间窗口）进一步优化第一阶段的掩码估计
    2阶段DNN结构如下图所示，类似与CNN中卷积层，但没有权重共享
频谱映射方法
- Interspeech：深度自动编码器（DAE）对语音增强的应用
  - 方案：通过将噪声语音的梅尔频谱映射到干净语音的梅尔频谱，实现增强
  - 基本的自编码器AE 是一种无监督学习机器，通常具有对称的架构，带有一个带有绑定权重的隐藏层，它学习将输入信号映射到自身
  - 多个训练过的自编码器可以堆叠成一个DAE，然后通过传统的有监督微调（例如使用反向传播算法）进行优化
- 使用带有RBM预训练的DNN 将噪声语音的对数功率谱（log power spectrum）映射到干净语音的功率谱
  这里的DNN是具有RBM预训练的标准前馈MLP
  训练好的DNN，在未训练的噪声条件下，性能优于传统语音增强技术
RNN和CNN的应用
- RNN（尤其是LSTM）被用来处理语音信号的时间动态特性
  RNN通过信号逼近目标（signal approximation）训练，能够有效提高增强性能
- CNN擅长提取局部空间特征，被用于端到端（End-to-End）增强系统
  Fu等提出全卷积网络以改进时间域语音增强。
GAN尝试
- SEGAN（Speech Enhancement GAN）
  - 生成器G执行增强任务，判别器D通过区分生成信号和真实信号来引导G的训练
  - 虽然这一方法提出了一种全新的监督学习视角，但效果尚未明显超越基于DNN或RNN的方法
端到端增强系统
近年来，端到端系统成为语音增强的新方向，直接从时间域信号中提取目标语音：
- 通过直接处理时域信号避免了传统方法中需要使用噪声语音的相位进行重构的问题

5.2 语音增强算法的泛化性

语音增强的泛化性的三个方面

噪声泛化（Noise Generalization）

目标：如何使模型在遇到未见过的噪声环境时仍能保持优异表现
对于语音增强，模型需要在噪声类型、噪声动态性（如非平稳性）和噪声强度（信噪比）的变化下，依然能有效提取目标语音。
噪声泛化方案
- 噪声扰动（Noise Perturbation）
  通过对现有噪声数据进行扰动（如改变频率或时域特性），生成更多“虚拟”噪声样本，从而扩展训练数据
- 噪声感知训练（Noise-Aware Training）
  在输入特征中加入噪声估计信息，使模型能够在增强目标语音的同时有效应对不同噪声条件。
  典型研究：Xu等提出了噪声感知训练，将噪声特性信息（如从时间频率掩码中估计的噪声）作为模型的额外输入特征。这样，模型可以根据输入的噪声信息动态调整语音增强策略。
- 大规模噪声训练
  使用尽可能多样化的噪声数据进行训练，使模型学到更多关于语音和噪声特性的通用知识
已有研究
已有研究对噪声的泛华性进行系统处理
该研究中的DNN是在帧级别上训练的，用于估计IRM
IRM同时在几个连续帧上进行估计，并对同一帧的不同估计值进行平均，以产生更平滑、更准确的掩蔽
该DNN具有五个隐藏层，每个隐藏层包含2048个ReLU激活单元
为了评估训练噪声数量对噪声泛化性的影响，同样的DNN也使用100个噪声进行训练

说话人泛化（Speaker Generalization）

核心：如何应对未见说话人的语音信号
模型是否能够在训练中学到通用特征，而不仅仅依赖于特定说话人的特征来分离语音。
面临的挑战
- 传统的语音增强系统通常在训练中使用固定的说话人数据。然而，当测试时遇到训练中未见的说话人时，系统的性能往往会显著下降。
- 可能的原因
  - 模型可能会过拟合到训练数据中特定说话人的声学特性
  - 不同说话人的语音特性（如音高、语速、音色等）可能会显著影响分离和增强的准确性
提高说话人泛化的方法
- 大规模说话人训练
  一种直接的方法是增加训练数据中说话人的多样性
  - 已有研究：已有研究中，训练集包含了320万段混合语音信号，这些信号是从10,000个噪声样本和77个不同说话人中生成的
    实验结果显示，当训练数据中包含更多的说话人时，模型的泛化能力显著提高
- 基于循环神经网络（RNN）的方法
  - RNN，尤其是长短期记忆网络（LSTM），在处理说话人泛化问题时表现出色
    - LSTM能够捕获语音信号的时间动态特性，可以更好地跟踪目标说话人的语音
    - 目标跟踪能力：LSTM能够在时间序列中持续跟踪目标说话人，从而减少对非目标说话人语音的错误分离
  - 已有研究：已有研究使用LSTM模型训练的语音增强系统在未见说话人上的表现远优于传统的前馈神经网络DNN，同时通过增加训练中的说话人数量，LSTM学会了适应多种语音特性，使其在未见说话人条件下仍能有效工作
DNN vs LSTM
- 在未见说话人条件下，LSTM的性能显著优于DNN
- 在训练数据中包含更多说话人时，LSTM的性能持续提升，而DNN则因无法有效建模多样化的语音特性而表现下降
未来可能可以探索的方向
- 端到端建模：进一步探索端到端模型（如结合CNN和RNN的方法），直接从原始波形学习说话人独立的特征
- 少样本学习：研究如何通过少量说话人数据，实现对新说话人的有效适应
- 语音风格迁移：探索将新说话人的语音特性映射到已训练说话人的特性，从而增强模型的适应性

信噪比（SNR）泛化

2种策略：
1. 多信噪比训练
  - 在训练数据中包含多个不同的SNR级别，以覆盖尽可能多的潜在信噪比范围。
  - 监督增强对训练中使用的具体信噪比并不敏感
  - 部分原因：尽管训练中包含了一些混合信噪比，但帧级别和时频级别的局部信噪比通常在较大范围内变化，为学习机器提供了必要的多样性，以便更好的泛化
2. 逐步训练（Progressive Training）
  - 通过逐步增加训练数据中的噪声强度，模型可以逐步适应更复杂的低信噪比环境
    - 初始阶段，使用较高信噪比（如+10 dB）的语音和噪声混合数据进行训练，让模型先学习清晰语音的特征。
    - 随后阶段，逐步降低信噪比（如0 dB、-5 dB），在每一阶段的训练中利用前一阶段的训练成果进行权重初始化。
    - 最后阶段，使用最低信噪比（如-10 dB或更低）进行训练，使模型逐步适应嘈杂环境。
  - 为解决训练条件和测试条件之间的不匹配问题，Kim提出了一种2阶段的DNN方法
    1. 标准DNN，用于频谱映射，分离目标语音
    2. 自编码器AE，作为“纯净检测器”，在测试阶段对第一部分结果进行无监督自适应优化
      自编码器被训练成将干净语音的幅度谱图映射到其自身，因此其训练不需要标记数据。
    - 基本原理：经过良好增强的语音信号会导致自编码器的输入和输出之间的差异（误差）很小，而增强效果较差的语音信号会产生较大的误差
    - 下图为用于语音增强的深度神经网络架构，其中自编码器用于无监督适应。自编码器叠加在底层DNN上，用作对从底层DNN估计的干净语音的纯度检查器。 $S^{(1)}$ 表示语音信号的频谱， $S^{(2)}$ 表示噪声信号的频谱， $\widetilde{S^{(1)}}$ (1)表示对 $S^{(1)}$ 的估计。
对比
- 多信噪比训练：通过覆盖更多的SNR范围来提升模型的泛化能力，适用于数据规模足够大的场景。
- 逐步训练：通过训练策略的优化逐步提高模型的适应能力，适用于复杂任务或低信噪比环境下的训练

5.3 语音去混响和语音降噪

实际环境中，语音信号常受到以下两个主要因素的影响
- 混响：由房间内墙壁和物体的声波反射引起，导致语音信号在时间和频率上扭曲
- 噪声：包括背景噪声和其他干扰源

去混响算法已有研究

基于频谱映射
- **Han等（2014）**首次提出使用深度神经网络（DNN）进行语音去混响【57】，主要流程如下，可以有效恢复无混响语音的结构，并显著减少混响的负面影响
  1. 将混响语音的时域信号转换为伽马通滤波器响应的频谱图（伽马通谱图）
  2. 训练DNN模型，将混响语音的频谱图映射到无混响语音的频谱图
  3. 通过逆变换将预测的无混响频谱图转换回时域信号。
- Han等（2015）进一步扩展了去混响算法，结合了降噪处理
  该模型同时处理混响和噪声干扰，实现了更全面的语音增强
混响时间感知模型
- **Wu等（2017）**观察到混响时间（T60，即声能衰减到原始能量60 dB所需的时间）会显著影响去混响性能[190]
  - 提出了混响时间感知模型（Reverberation-Time-Aware Model）–与传统固定帧长的DNN相比，该模型显著提高了去混响性能
    1. 根据T60动态调整帧长和帧移
    2. 在DNN训练和推理阶段均使用估计的T60值
    3. 使用不同的时间分辨率对不同混响条件下的语音进行建模。
      基于混响时间感知的语音去混响的DNN示意图如下图所示
动态特征的结合
- Xiao等（2016）提出了在DNN中结合静态、一阶差分和二阶差分特征的方法【194】
  1. 静态特征为干净语音的对数频谱
  2. 一阶差分和二阶差分特征通过静态特征的时间差分计算得出
  3. 同时预测这些特征，可以帮助模型更准确地估计静态特征

联合去混响与降噪

2阶段DNN
- Zhao等（2018）[211]提出了一种两阶段DNN模型，分别处理降噪和去混响[211]
  - 观察特征
    1. 去混响：频谱映射比时频掩蔽更有效
    2. 降噪：掩蔽比频谱映射有效
  - 算法流程
    1. 第一阶段：利用比率掩码（IRM）进行降噪处理
    2. 第二阶段：通过频谱映射恢复无混响语音
    3. 联合优化：在训练时分别优化每个阶段，然后进行联合训练
  - 为了减轻使用混响噪声语音相位在重构增强语音的波形信号时所产生的不良影响，该研究延续了前人的时间域信号恢复技术
时间域信号恢复
- 在重建语音信号时，使用混响-噪声语音的相位可能会限制最终语音质量。为此，研究提出了改进的时间域信号恢复方法
  1. 使用干净语音的相位作为参考信号进行训练，而不是混响语音的相位
  2. 通过反向傅里叶变换直接在时域生成增强语音。

5.4 说话人分离（Speaker Separation）

目标：从包含两个或多个说话者的混合语音中提取出每个说话者的独立语音信号
准确提取每个说话人的语音信号，并最大限度地减少交叉干扰和背景噪声
说话人分离有三种情况
- 说话者依赖情况（speaker-dependent）：训练+测试过程中不允许底层的说话者发生变化
- 目标依赖的说话者分离（target-dependent speaker separation）：允许干扰说话者发生变化，目标说话者保持不变
- 说话者独立（speaker-independent）：最不受限制的情况下，训练+测试过程中的说话者都不需要保持一直（无监督聚类）

说话人独立的分离可以被视为无监督聚类，其中T-F单元被聚类为由各个说话人主导的不同类别
聚类是一种灵活的框架，可以用于分离不同数量的说话人，但它无法像在监督训练中充分利用区分性信息那样受益

通过下面研究可以发现：通过使用许多不同说话者对的训练数据训练的DNN模型可以在未包含在训练中的说话者对上进行分离，这是一种说话者独立的分离，但仅限于帧级别。
对于说话者独立的分离，关键问题是如何在不同帧（或片段）之间有效地将分离的语音信号进行序列组织。这恰好是CASA（计算听觉场景分析）方法中广泛研究的顺序组织问题
在DNN训练过程中，可以认为置换不变训练是对顺序组织施加约束的一种方式。另一方面，传统的CASA方法通常利用音高轮廓、声道特征、韵律或韵律、甚至多个传感器可用时的共同空间方向等信息，这些方法通常不涉及监督学习。我们认为将传统的CASA技术与基于DNN的方法进行整合可能会产生更好的结果。

已有研究

使用DNN

81.Deep learning for monaural speech separation首先引入了DNN用于说话人分离，该研究使用前馈DNN和RNN来进行双说话者分离。
该方法针对两说话人混合信号，构建了一个监督学习框架，其中包括：

掩码层：为每个目标说话人估计一个比率掩码（ratio mask），从而分离出其频谱信号
作者认为，在帧t上，两个估计源的频谱的总和 $\hat{S_1}(t)$ 和 $\hat{S_2}(t)$ 不一定等于混合信号的频谱。因此，他们在网络中添加了一个掩码层，来计算比率掩码（以下公式）
比率掩码通过以下公式计算：
$\begin{align*} {\tilde{\boldsymbol{S}}_1}(t) &= \frac{{\left| {{{\hat{\boldsymbol{S}}}_1}(t)} \right|}}{{\left| {{{\hat{\boldsymbol{S}}}_1}(t)} \right| + \left| {{{\hat{\boldsymbol{S}}}_2}(t)} \right|}}\ \odot \boldsymbol{Y}(t)\tag{8} \\ {\tilde{\boldsymbol{S}}_2}(t) &= \frac{{\left| {{{\hat{\boldsymbol{S}}}_2}(t)} \right|}}{{\left| {{{\hat{\boldsymbol{S}}}_1}(t)} \right| + \left| {{{\hat{\boldsymbol{S}}}_2}(t)} \right|}}\ \odot \boldsymbol{Y}(t)\tag{9} \end{align*}$
$Y (t)$ 表示时刻t的混合频谱
损失函数：为了优化分离质量，加入了判别性训练，最大化目标语音和干扰语音之间的差异
$KaTeX parse error: Got function '\sum' with no arguments as argument to '\mathop' at position 40: …c{1}{2}\mathop \̲s̲u̲m̲ ̲\limits_t \Bigg…$
$S_1(t)和S_2(t)$ 分别表示说话者1和说话者2的真实频谱，是一个可调参数
结果表明：掩码层和判别性训练都可以改善说话者分离的效果
是一种说话者依赖的方法

后续研究：

Speech separation of a target speaker based on deep neural networks提出类似的用于说话者分离的DNN
其中，DNN被训练用于从混合信号的对数功率谱中估计目标说话者的谱
Speech separation based on improved deep neural networks with dual outputs of speech features for both target and interfering speakers 使用DNN将混合信号映射到目标说话者的谱以及干扰说话者的谱

与81.Deep learning for monaural speech separation相比，这些论文的一个显著扩展是它们还处理了训练和测试之间目标说话者相同，而干扰说话者不同的情况，研究处理了说话者和目标的依赖分离
通过使用目标说话者和许多干扰说话者的混合信号进行训练，从而放宽了对干扰说话者的约束

深度堆叠网络（Deep Stacking Network）

前有研究206.A deep ensemble learning method for monaural speech separation提出了一个深度堆叠网络来改进分离性能：
- 结构
  - 多上下文网络：结合不同时间分辨率的信息，通过多层结构进行更精细的频谱特征建模。
  - 集成模型：多个子模块组成集成网络，分别对信号进行多目标优化。
- 考虑了多种训练目标
  - 对于说话者依赖的分离：信号逼近最有效
  - 对于目标依赖的分离：掩蔽+信号逼近的组合最有效（性能接近于说话者依赖的分离性能）
作者在说话者分离中进一步放松了说话者依赖性
1. 将每个说话者聚类为4个簇（2个男性簇和2个女性簇）
2. 训练一个基于DNN的性别混合检测器来确定婚姻中两个底层说话者所属的簇
- 尽管每个簇中只对子集说话者进行训练，但评估结果表明，该说话者分离方法对每个簇中的其他未经训练的说话者也能很好地工作（即该说话者分离方法表现出一定程度的说话者独立性）

深度聚类

聚类是一种灵活的框架，可以用于分离不同数量的说话人，但它无法像在监督训练中充分利用区分性信息那样受益
深度聚类通过深度学习将语音分离问题转化为一个聚类问题，特别适用于处理多说话人无监督或说话人无关的场景。
与传统监督学习方法不同，深度聚类不直接预测分离的语音信号，而是学习将时间-频率（T-F）单元嵌入到一个高维空间，使得同一个说话人的嵌入向量能够聚集在一起，不同说话人的向量相互远离。
69.Deep clustering: Discriminative embeddings for segmentation and separation是第一个在DNN框架中处理说话人独立的多说话人分离的研究，该方法成为深度聚类，结合了基于DNN的特征学习和谱聚类。
通过具有TF单元的真实划分，亲和矩阵可以计算为：
$\begin{equation*} \boldsymbol{A} = \ \boldsymbol{Y}{\boldsymbol{Y}^T}\tag{11} \end{equation*}$
其中， Y是由IBM构建的指示矩阵。如果单元属于（或由）说话人主导，则 , 设置为1，否则为0。
DNN通过最小化以下loss函数来学习为来自同一说话人的T-F单元输出相似的嵌入：
$\begin{equation*} {C_{\boldsymbol{Y}}}\left(\boldsymbol{V} \right) = \| {\hat{\boldsymbol{A}} - \boldsymbol{A}} \|_F^2 = \| {\boldsymbol{V}{\boldsymbol{V}^T} - \boldsymbol{Y}{\boldsymbol{Y}^T}} \|_F^2\tag{12} \end{equation*}$

深度吸引子网络（deep attractor network）

对深度聚类的扩展，同样学习了T-F单元的高维嵌入表示。
与深度聚类不同，这个深度网络创建了吸引子点，类似于聚类中心，以便将受不同说话人主导的T-F单元吸引到它们对应的吸引子上。然后，通过比较嵌入点和每个吸引子，执行说话人分离作为掩蔽估计。

基于DNN的掩蔽/映射

基于DNN的掩蔽/映射方法将DNN的每个输出与特定说话人关联起来，导致了说话人相关的模型
如，基于映射的方法最小化以下成本函数：
$KaTeX parse error: Got function '\sum' with no arguments as argument to '\mathop' at position 33: …} J\ = \mathop \̲s̲u̲m̲ ̲\limits_{k,t}\ …$
式子中分别表示说话人 k 的估计和实际谱振幅，t 表示时间帧

202.Permutation invariant training of deep models for speaker-independent multi-talker speech separation提出不变排列训练

对于两个说话人的分离，DNN 被训练以输出两个掩码，每个掩码应用于噪声语音以产生源估计

NT：虽然说话人分离的评估通常集中在两个说话人混音的情况下，但该分离框架可以推广到分离超过两个说话人的情况
对于说话人无关的分离，深度聚类[69]和置换不变训练[101]都是针对多说话人混音进行建模并在此类数据上进行评估的。
将深度聚类从两个说话人混音扩展到多于两个的情况比扩展置换不变训练更为直接

6.阵列分离算法（Array Separation Algorithms）

（这一部分后续再完善）
核心思想：多麦克风阵列技术通过麦克风之间的空间分布提取信号的空间特征。
（目标语音和干扰信号在不同方向上具有不同的到达时间和强度，这种差异可以被用于区分和分离）
基于空间信息的传统声源分离方法包括波束形成和独立成分分析（ICA）

6.1 基于空间特征提取的分离

基于空间特征提取的分离方法利用麦克风阵列中不同信号的空间属性（如声源方向、到达时间差等）来实现语音分离。

核心：通过分析信号的空间特性区分目标信号和干扰信号。
优点
- 有效利用声源的空间特性，可实现目标信号的显著增强。
- 对复杂的多声源场景具有较强的适应性。
缺点
- 对麦克风阵列的排列精度和噪声条件敏感
- 在声源方向接近或混响严重的情况下效果会下降

已有研究

第一项针对有监督语音分离的研究由Roman等人在双耳领域进行
该研究利用两个双耳特征进行有监督分类，即从左耳和右耳鳞状图中提取的ITD（相位差）和ILD（强度差）
这种情况下，IBM是在单个耳朵（参考通道）的嘈杂语音上定义的
分类是基于最大后验（MAP）估计，其中似然性由密度估计技术给出
双传感器分离技术（Degenerate Unmixing Estimation Technique，DUET）
基于无监督聚类，并使用两个麦克风之间的相位和幅度差作为空间特征
首次采用DNN进行双耳分离的研究
在这项研究中，来自两只耳朵（或麦克风）的信号经过两个相应的听觉滤波器组。
从时频单元对中提取ITD和ILD特征，并将其送入子带DNN进行IBM估计，每个频率通道使用一个DNN
空间配置是指声源和传感器在声学环境中的具体放置方式
该研究实验可以观察到：
- 训练过的DNN在未经训练的声源空间配置下具有良好的泛化能力
- 基于DNN的双耳分离在房间脉冲响应和混响时间方面具有良好的泛化能力
- 引入单声道特征可以提高分离性能（尤其是在目标声源和干扰声源共位或靠近的情况下）
包括ILD、耳间相位差（IPD）和改进特征（通过位置信息导出的初始掩码）的DNN谱映射方法
- 除了单声道输入之外还包括空间特征
- 结果显示：最佳的增强性能是由单声道和改进特征的组合
利用双声道和单声道输入的谱映射方法
- 对于双声道特征，该研究使用子带ILD，发现这种特征比全带ILD更有效
- 将这些特征与左耳的帧级对数功率谱级联起来形成DNN的输入，DNN被训练为将输入映射到干净语音的谱图
更复杂的双声道分离算法
- 使用的空间特征包括：耳间相位差（IPD）、间距水平差（ILD）和一种称为混合向量的形式
- 所使用的DNN是一个DAE，首先以无监督方式进行训练，作为自动编码器，然后将其堆叠为DNN，并进行受监督的微调
- 提取的空间特征首先通过无监督DAE训练映射到表示空间方向的高级特征。
- 在分离阶段，训练一个分类器，将高级空间特征映射到源方向的离散化范围内。
- 该算法在子带上运行，每个子带覆盖一块连续的频率通道。
更复杂的空间和频谱特征的IRM估计的DNN[208]
- 算法如下图所示
  左耳和右耳输入分别送入两个不同的模块进行频谱（单耳）和空间（双耳）分析
  与在单个耳朵上进行单声道分析的研究[90][43]不同，本研究[208]中的频谱分析是在一个固定波束形成器的输出上进行的，该波束形成器本身通过提取一组互补的单声道特征来去除一些背景干扰（详见第4章）
  对于空间分析，采用交叉相关函数形式的ITD和ILD进行提取
  频谱和空间特征被串联起来形成输入，用于在帧级别进行IRM估计的DNN
  可以观察到：通过将两个耳朵的单声道特征进行串联，可以获得在应用波束形成期前提取频谱特征所带来的大部分好处
- 一般双耳

总结

将阵列提供的空间信息作为深度学习的特征使用，是对早期在单声道分离中使用DNN的直接扩展；只需将空间特征替换为单声道特征
这种利用空间信息的方式为源分离提供了一个自然的框架，可以整合单声道和空间特征

6.2 时频掩模波束形成

结合了时频域分离和空间信息增强技术，是目前多通道语音分离的重要方向
通过计算目标信号在时频域的掩模，并结合波束形成技术来分离语音

优点
- 将时频域特性与空间信息结合，显著提升分离性能
- 能较好地适应复杂噪声环境和动态场景
缺点
- 对时频掩模的估计精度高度依赖
- 波束形成过程需要精确的方向信息，且计算复杂度较高

总结

基于空间特征提取的分离：主要依赖空间特性（如方向性和时间差），适合静态声源场景
时频掩模波束形成：结合时频域分离和波束形成技术，能有效应对动态和复杂噪声环境，是多通道语音分离的重要发展方向

方面	6.1 基于空间特征提取的分离	6.2 时频掩模波束形成
核心方法	利用声源的空间特性（如DOA）进行分离	结合时频掩模和波束形成技术，实现联合优化
深度学习的作用	学习空间特征，自动完成方向增强	用于时频掩模估计及联合优化波束形成权值
适用场景	静态场景下，声源方向分布较分散	动态复杂场景，背景噪声和干扰方向变化较大
优势	算法简单，适合低噪声环境	性能更强，适应复杂多源混响环境
局限性	对混响和方向接近的声源效果较差	计算复杂度高，对时频掩模估计精度依赖较强

7.讨论与结论

7.1 特征与学习机制

7.2 时频域与时域

大多数监督式语音分离都是在时频域进行，也可以在时域进行，无需频率表示
通过时域映射，可以同时清楚幅度和相位
端到端的分离代表了随着CNN和GAN的使用而出现的新趋势

NT
- 时间映射很常用于有监督分离方法，为相位增强提供了独特的视角
- 同一信号可以在时域表示和时频域表示之间相互转换
- 人类听觉系统在听觉途径的开始处，即耳蜗，有频率维度
Licklider的经典音高感知双工理论，假设了两个音高分析过程：
- 一个空间过程对应于耳蜗中的频率维度
- 一个时间过程对应于每个频率通道的时间响应
音高估计的计算模型可分为三类
- 谱域
- 时域
- 谱时域