当前位置：首页 > news >正文

捋一捋相关性运算，以及DTD和NLP中的应用

news 2025/3/13 17:50:15

捋一捋相关性运算，以及DTD和NLP中的应用

相关性和相干性,有木有傻傻分不清
- 相关性
- 数字信号的相关运算
- - 同维度信号的相关理解
- 相关--互相关--相干
回声消除过程如何套用这些知识
相关性/相干性检测在DT中的应用
参考

相关性和相干性,有木有傻傻分不清

这是容易混淆的两个概念，对应于英语分别是 correlation 和 coherence，原来英语也这么相似。翻阅了很多资料，给出的定义和描述也大同小异，但真的想一针见血的区分出来这两个概念，以至于看papers的时候不要脑子混浆浆的，那还要从频域的角度思考，相关性-correlation 应该理解为一种更为广泛的信号相似度评价指标，而相干性-coherence更加注重在某一个频率上两个信号相位的关系，即恒定相位差的两个同频信号（分量）具备相关（相干）性，所指的范围更加狭义了一些。也不知道这么理解靠谱不，严不严谨。具体到数字信号处理领域的话，我们评价时域信号的相似程度，往往用相关性来指示，有正相关，负相关或者不相关的说法，到了时域谱分析的时候，通常用相干性来评价某个子带频率是否相干。

数字信号的相关运算

数字信号的相关性比较是一种计算两个序列相似性的数学方法。这里引申出来自相关和互相关，那么定义x和y两个(复数)序列的相关运算如下：
$r_{xy}(L)=\sum_{n=-\infty}^\infty x(n)\times y^*(n+L)$ 自相关 $r_{xx}(L)=\sum_{n=-\infty}^\infty x(n)\times x^*(n+L)$
自相关函数比较明显的看出当L=0时，会出现相关峰，而对于有限长序列这更加确认无疑，互相关的一种解释：两个（序列）函数如果具有相同周期分量的时候，它的极大值能体现这种周期性的分量（数（3）相关运算和卷积运算）。

同维度信号的相关理解

同维度信号可以理解为两组向量，在学习高维向量的相似度判定-距离产生了，美还在吗以及正交性,从內积开始到施密特正交化的时候我们可以用向量的办法来理解这种相关性计算，即这种相关是多维向量的内积，或者说一个向量到另一个向量的投影，如果内积为零，说明两个向量正交，即一点也不相关，如果内积越大说明两个向量有着千丝万缕的联系。这种联系就是高维空间的embedding，一般用夹角来表征：
$similarity_{cos}= cos\theta =\frac{a \cdot b}{||a|| \cdot ||b||}=\frac{\sum_{i=1}^n(x_i*y_i)}{\sqrt{\sum_{i=1}^n(x_i)^2}*\sqrt{\sum_{i=1}^n(y_i)^2}}$ 这种归一化的相关性使得结果有了清晰的值域，+1为PositiveCorrelation，-1为NegativeCorrelation，0为NoCorrelation（待考证）。相关性运算结果能给出一个比较清晰的映射了。

相关–互相关–相干

实际应用中，自相关是理想主义者，用不到。互相关才是实用主义者，任何两片雪花都不会一模一样，任何一个源信息，经过传播后都会发生变化，令人无法再看出他们是不是兄弟姐妹，或者谁先谁后。相关性的判断能最大可能的告诉你这组序列的前世今生有何关联。而互相关从理论上很难得出相似度为1的结果，一个不大不小的值往往很令人迷惑，这时候就可以跑到频域去看看相干性的一些特性，进而对参与比较的信号有更深的认识。直观的理解可以先看下一个网站4.3.9 Coherence and Correlation，引用上面的定义

Coherence measures the degree of linear dependency of two signals by testing for similar frequency components. If two signals correspond to each other perfectly at a given frequency, the magnitude of coherence is 1. If they are totally unrelated coherence will be 0.Correlation is another measure of the relationship between two signals. A correlation coefficient is used to evaluate similarity. If two signals have a high degree of similarity, the magnitude of the computed correlation coefficient is large. If there is little or no linear relationship between two signals, the magnitude of the coefficient is small.

我觉得说的比较清晰。相关性计算可以理解为一种内积或者归一化的cos相似度判断，相干性的数学表达又是什么呢？我们跟随18. Cross-Spectra and Coherence的推导尝试了解一下。一般通用的线性系统表达为： $y_m=\sum_{-\infty}^{\infty}h_k x_{m-k}+n_m$ 简化处理，我们只用傅里叶变换的方式把时域搬到频域来看看(卷积变相乘的性质)， $y(\omega)=h(\omega)x(\omega)+n(\omega)$ 等式两测同时乘以 $x^*(\omega)$ ，则有 $y(\omega)x^*(\omega)=h(\omega)x(\omega)x^*(\omega)+n(\omega)x^*(\omega)$ ，定义 $\Phi_{yx}(\omega)=y(\omega)x^*(\omega)$ ， $\Phi_{xx}(\omega)=x(\omega)x^*(\omega)$ ，另外大胆假设噪声和输入信号的正交性，则可以忽略最后一项，则有： $\Phi_{yx}(\omega)=h(\omega)\Phi_{xx}(\omega)$ 这样我们得到频域响应函数的另外一种表达： $h(\omega)=\frac{\Phi_{yx}(\omega)}{\Phi_{xx}(\omega)}$ 如果此时定义 $C_{yx}(\omega)=\frac{\Phi_{yx}(\omega)}{\sqrt{\Phi_{yy}(\omega)\Phi_{xx}(\omega)}}$ 那么可以得到频响的另一种表达： $h(\omega)=C_{yx}(\omega)\sqrt{\frac{\Phi_{yy}(\omega)}{\Phi_{xx}(\omega)}}$ 这个等式的开根号自功率谱是实数，所以频响的相位特征有 $C_{yx}$ 所表达，我们定义这个 $C_{yx}$ 为相干性指标。我们观察一下它的特性，令 $y(\omega)=h(\omega)x(\omega)+n(\omega)$ 等式两测同时乘以 $y^*(\omega)$ ，可以推导出下面的式子： $\Phi_{yy}(\omega)=|h(\omega)|^2\Phi_{xx}(\omega)+\Phi_{nn}(\omega)$ 替换 $C_{yx}$ ，则有 $\Phi_{yy}(\omega)=|C_{yx}(\omega)\sqrt{\frac{\Phi_{yy}(\omega)}{\Phi_{xx}(\omega)}}|^2\Phi_{xx}(\omega)+\Phi_{nn}(\omega)=|C_{yx}|^2\Phi_{yy}(\omega)+\Phi_{nn}(\omega)$ 换个写法： $\Phi_{yy}(\omega)(1-|C_{yx}|^2)=\Phi_{nn}(\omega)$ ， $1-|C_{yx}|^2)$ 定义为不相关功率，即如果 $C_{yx}|=1$ ， $y_n$ 可以有 $x_n$ 完美计算出来。即： $\Phi_{yy}(\omega)(|C_{yx}|^2)=|h(\omega)|^2\Phi_{xx}(\omega)$ 以上是关于相干性的数学推导，需要提到的是这些参数大部分只是理想的计算，真正的系统都是测试观察获得的，所以带入到这些公式里，我们只能称作估计"estimation"。

回声消除过程如何套用这些知识

下图是一张典型的回声消除框架图
在这里插入图片描述
我们把它复制一份，通过DFT（STFT）过程变换到频域，那么左侧的内积，卷积，相关运算都可以理解为寻找相关性。右侧频域的谱估计过程可以理解为寻找相干性。不失一般性的胡说，且认为相关性是相干性的时域体验，相干性是相关性的频域分解吧。
在这里插入图片描述