当前位置: 首页 > news >正文

EM算法讲解

一、EM算法中隐变量的作用

在EM算法(期望最大化算法)中,隐变量(latent variables)是算法核心的一部分。它们的引入可以简化问题,将复杂的概率模型转换为更易处理的形式。隐变量的主要作用如下:

1. 转化难解问题为易解问题

  • 在许多实际应用中,直接计算模型参数的最大似然估计是非常困难的,特别是在存在未观测变量的情况下。隐变量可以帮助将难以直接处理的问题(例如,包含复杂分布的后验概率估计)分解成两个步骤:期望步骤(E步)最大化步骤(M步),从而简化计算。
    • E步:根据当前的参数估计,计算隐变量的条件期望。
    • M步:使用E步计算出的期望,优化模型参数。

通过将这些未观测的变量当作隐变量,EM算法能够在每次迭代中对这些未观测变量进行期望估计,然后更新参数。这种分解方法使得问题变得可解。

2. 隐变量帮助计算完整数据的似然

  • 在EM算法中,假设观测数据 D D D 和隐变量 Z Z Z 的联合分布是已知的。EM算法的目标是找到模型参数,使得完整数据似然 P ( D , Z ∣ θ ) P(D, Z | \theta) P(D,Zθ) 最大化。
    • 但是,由于隐变量 Z Z Z 是不可观测的,我们不能直接计算其真实值。因此,EM算法在E步中计算的是隐变量的条件期望,即在当前模型参数条件下,隐变量 Z Z Z 的可能取值。

这种条件期望允许我们绕过隐变量的实际值,间接地通过观测数据更新参数,最终收敛到最大似然估计。

3. 引入隐变量提供更多的模型解释力

  • 隐变量不仅在技术上帮助EM算法进行参数估计,还提供了对数据的更多解释。例如,在高斯混合模型(Gaussian Mixture Model, GMM)中,隐变量可以表示每个样本属于哪个高斯分布成分。通过引入这些隐变量,我们可以在E步中为每个样本分配一个“软”类别归属,表示其属于不同成分的概率。

这种归属可以帮助模型更好地捕捉数据中的潜在结构,并解释不同数据点是如何生成的。

4. 处理缺失数据

  • 隐变量通常还用于处理缺失数据。在许多问题中,某些数据点可能是不可观测的。隐变量可以自然地表示这些缺失值,EM算法则通过估计这些隐变量的期望值(即填补缺失数据),从而继续优化模型参数。

总结

在EM算法中,隐变量的作用主要体现在:

  1. 简化难解问题:将复杂问题分解成可迭代的两步,分别计算期望和最大化。
  2. 辅助似然计算:通过估计隐变量的期望,帮助间接地优化似然函数。
  3. 增强解释力:帮助模型更好地捕捉数据的潜在结构。
  4. 处理缺失数据:有效应对部分数据缺失的情况。

隐变量在EM算法中起到了核心的连接作用,使得算法能够在存在未观测变量或复杂概率分布的情况下,依然有效地进行参数估计。

二、实际例子讲解EM算法隐变量的应用

让我们用一个具体的例子来讲解EM算法中隐变量的应用:高斯混合模型(Gaussian Mixture Model, GMM)

高斯混合模型(GMM)概述

高斯混合模型是一种常用的聚类算法,用于将数据划分为多个簇,每个簇由一个高斯分布(即正态分布)来描述。在GMM中,数据点属于不同的高斯分布(簇),但我们不知道每个数据点属于哪个簇,这就是问题中的隐变量

隐变量 Z Z Z 用于表示每个数据点 X X X 属于哪个高斯分布。由于我们无法直接观测到数据点的簇归属,因此 Z Z Z 是隐含的,但它对模型参数的估计非常关键。

EM算法在高斯混合模型中的应用

假设我们有一个二维数据集,我们认为这些数据是由两个不同的高斯分布生成的,但我们不知道每个点属于哪个高斯分布,也不知道两个高斯分布的参数。

1. 模型设置

在GMM中,每个数据点 X i X_i Xi 的概率密度可以写成多个高斯分布的加权和:
P ( X i ∣ θ ) = ∑ k = 1 K π k ⋅ N ( X i ∣ μ k , Σ k ) P(X_i | \theta) = \sum_{k=1}^{K} \pi_k \cdot \mathcal{N}(X_i | \mu_k, \Sigma_k) P(Xiθ)=k=1KπkN(Xiμk,Σk)

  • K K K 是高斯分布的数量(即簇的数量)。
  • π k \pi_k πk 是第 k k k 个高斯分布的权重,满足 ∑ k = 1 K π k = 1 \sum_{k=1}^{K} \pi_k = 1 k=1Kπk=1
  • μ k \mu_k μk Σ k \Sigma_k Σk 分别是第 k k k 个高斯分布的均值和协方差矩阵。
  • θ = { π k , μ k , Σ k } \theta = \{\pi_k, \mu_k, \Sigma_k\} θ={πk,μk,Σk} 是需要估计的参数。

隐变量 Z i Z_i Zi 是一个指示变量,表示第 i i i 个数据点属于哪个高斯分布(即哪个簇)。

2. EM算法的步骤

步骤 1:初始化参数

  • 随机初始化参数 θ = { π k , μ k , Σ k } \theta = \{\pi_k, \mu_k, \Sigma_k\} θ={πk,μk,Σk},即每个簇的权重、均值和协方差矩阵。

步骤 2:E步(期望步骤)

  • 计算每个数据点 X i X_i Xi 属于每个高斯分布 k k k后验概率,即隐变量 Z i Z_i Zi 的条件期望。可以理解为每个数据点在当前参数下属于每个簇的概率:
    γ ( Z i k ) = π k ⋅ N ( X i ∣ μ k , Σ k ) ∑ j = 1 K π j ⋅ N ( X i ∣ μ j , Σ j ) \gamma(Z_{ik}) = \frac{\pi_k \cdot \mathcal{N}(X_i | \mu_k, \Sigma_k)}{\sum_{j=1}^{K} \pi_j \cdot \mathcal{N}(X_i | \mu_j, \Sigma_j)} γ(Zik)=j=1KπjN(Xiμj,Σj)πkN(Xiμk,Σk)
  • 这里 γ ( Z i k ) \gamma(Z_{ik}) γ(Zik) 表示在第 t t t 轮迭代后,第 i i i 个数据点属于簇 k k k 的概率。

步骤 3:M步(最大化步骤)

  • 利用E步中的隐变量期望,重新估计模型参数 θ \theta θ
    • 更新每个高斯分布的均值
      μ k = ∑ i = 1 N γ ( Z i k ) X i ∑ i = 1 N γ ( Z i k ) \mu_k = \frac{\sum_{i=1}^{N} \gamma(Z_{ik}) X_i}{\sum_{i=1}^{N} \gamma(Z_{ik})} μk=i=1Nγ(Zik)i=1Nγ(Zik)Xi
    • 更新协方差矩阵
      Σ k = ∑ i = 1 N γ ( Z i k ) ( X i − μ k ) ( X i − μ k ) T ∑ i = 1 N γ ( Z i k ) \Sigma_k = \frac{\sum_{i=1}^{N} \gamma(Z_{ik}) (X_i - \mu_k)(X_i - \mu_k)^T}{\sum_{i=1}^{N} \gamma(Z_{ik})} Σk=i=1Nγ(Zik)i=1Nγ(Zik)(Xiμk)(Xiμk)T
    • 更新每个高斯分布的权重
      π k = 1 N ∑ i = 1 N γ ( Z i k ) \pi_k = \frac{1}{N} \sum_{i=1}^{N} \gamma(Z_{ik}) πk=N1i=1Nγ(Zik)
    • 这里 N N N 是数据点的数量。

步骤 4:收敛条件

  • 重复步骤2和步骤3,直到参数变化足够小,或者达到最大迭代次数。
3. 具体解释隐变量的作用

在GMM模型中,我们的目标是找到每个数据点属于哪个高斯分布(即属于哪个簇)。由于这些信息是未知的,隐变量 Z Z Z 表示每个数据点归属哪个簇。在E步中,我们使用当前参数来估计这些隐变量的期望值,即每个数据点属于各个簇的概率。然后,在M步中,我们使用这些期望值来更新模型参数(均值、协方差、权重),使得数据点的归属越来越明确。

隐变量的作用是帮助处理簇归属未知的情况。它允许我们在没有明确知道每个数据点属于哪个簇的情况下,仍然可以通过估计簇归属的概率来迭代优化模型。

总结

在高斯混合模型中,隐变量表示每个数据点属于哪个簇。由于这些信息是不可观测的,EM算法通过E步估计这些隐变量的期望值,然后在M步中利用这些期望值来更新模型参数。隐变量的引入使得我们能够在观测数据存在潜在结构(如不同簇)的情况下,有效地估计模型参数。

三、 具体实现

为了演示EM算法以及其在高斯混合模型中的应用,我们将实现一个简化版本的GMM,而不是直接调用现有的库。整个过程包含以下步骤:

  1. 初始化参数:初始化混合模型的参数,比如高斯分布的均值、协方差矩阵和权重。
  2. E步(期望步骤):计算每个数据点属于每个高斯分布的概率,即隐变量的期望。
  3. M步(最大化步骤):使用E步中的结果更新高斯分布的参数。
  4. 迭代执行E步和M步,直到参数收敛。

代码实现(不调用库的情况下手动实现EM算法)

import numpy as np# 定义二维高斯概率密度函数
def gaussian_pdf(x, mean, cov):n = x.shape[0]diff = x - meanexp_part = np.exp(-0.5 * np.dot(np.dot(diff.T, np.linalg.inv(cov)), diff))return (1.0 / np.sqrt((2 * np.pi) ** n * np.linalg.det(cov))) * exp_part# E步:计算每个数据点属于每个高斯分布的后验概率
def e_step(X, means, covs, pis):N = X.shape[0]  # 数据点数量K = len(means)  # 高斯分布数量responsibilities = np.zeros((N, K))# 计算每个数据点属于每个高斯分布的概率for i in range(N):for k in range(K):responsibilities[i, k] = pis[k] * gaussian_pdf(X[i], means[k], covs[k])responsibilities[i, :] /= np.sum(responsibilities[i, :])  # 归一化return responsibilities# M步:更新模型参数
def m_step(X, responsibilities):N, d = X.shapeK = responsibilities.shape[1]pis = np.zeros(K)means = np.zeros((K, d))covs = np.zeros((K, d, d))for k in range(K):Nk = np.sum(responsibilities[:, k])pis[k] = Nk / N  # 更新簇的权重# 更新均值means[k] = np.sum(responsibilities[:, k].reshape(-1, 1) * X, axis=0) / Nk# 更新协方差矩阵cov = np.zeros((d, d))for i in range(N):diff = (X[i] - means[k]).reshape(-1, 1)cov += responsibilities[i, k] * np.dot(diff, diff.T)covs[k] = cov / Nkreturn pis, means, covs# 主EM算法循环
def gmm_em(X, K, max_iters=100, tol=1e-4):N, d = X.shape# 初始化参数np.random.seed(42)means = X[np.random.choice(N, K, replace=False)]  # 从数据中随机选取初始均值covs = [np.eye(d) for _ in range(K)]  # 初始协方差矩阵为单位矩阵pis = np.ones(K) / K  # 初始每个簇的权重相等log_likelihoods = []for iteration in range(max_iters):# E步responsibilities = e_step(X, means, covs, pis)# M步pis, means, covs = m_step(X, responsibilities)# 计算当前的对数似然log_likelihood = 0for i in range(N):prob = 0for k in range(K):prob += pis[k] * gaussian_pdf(X[i], means[k], covs[k])log_likelihood += np.log(prob)log_likelihoods.append(log_likelihood)# 检查是否收敛if iteration > 0 and np.abs(log_likelihoods[-1] - log_likelihoods[-2]) < tol:breakreturn pis, means, covs, responsibilities, log_likelihoods# 生成数据
np.random.seed(42)
mean1 = [0, 0]
cov1 = [[1, 0.5], [0.5, 1]]
X1 = np.random.multivariate_normal(mean1, cov1, 300)mean2 = [3, 4]
cov2 = [[1, -0.2], [-0.2, 1]]
X2 = np.random.multivariate_normal(mean2, cov2, 300)X = np.vstack([X1, X2])# 运行EM算法
K = 2  # 假设有两个簇
pis, means, covs, responsibilities, log_likelihoods = gmm_em(X, K)# 输出结果
print("簇的权重:", pis)
print("簇的均值:", means)
print("簇的协方差矩阵:", covs)

代码详解

  1. 二维高斯概率密度函数gaussian_pdf 函数计算每个数据点属于某个高斯分布的概率。
  2. E步e_step 函数计算每个数据点属于每个高斯分布的后验概率(即隐变量的期望)。
  3. M步m_step 函数根据E步的结果更新高斯分布的参数,包括簇的权重、均值和协方差矩阵。
  4. EM循环:主循环中,E步和M步交替进行,直到对数似然值收敛。

输出结果

程序将输出每个簇的权重、均值和协方差矩阵。这些参数是通过EM算法迭代计算得出的,隐变量帮助我们在没有观测到簇归属的情况下,估计出这些簇的参数。

可视化结果

可以在输出结果之后添加可视化代码来查看聚类效果。


http://www.mrgr.cn/news/32856.html

相关文章:

  • 什么叫后验分布
  • C#基础(16)实践:学生成绩管理系统
  • 花朵识别系统Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
  • 算法工程师面试常考手撕题
  • 调整pycharm中的字体大小
  • 2024年信息学奥赛CSP-J1入门组初赛真题试卷
  • 2024年华为杯数学建模研赛(F题) 建模解析| 卫星轨道 | 小鹿学长带队指引全代码文章与思路
  • Java String indexOf()方法
  • 论文推荐——犹豫直觉模糊偏好关系积性一致性及其在群决策中的应用
  • 【远程调用PythonAPI-flask】
  • 滑动窗口算法专题(1)
  • 【更新】上市公司绿色专利申请及授权数据(2000-2023年)
  • 独立站如何批量查收录,如何进行独立站的批量收录查询的详细操作
  • SpringBoot 整合 Caffeine 实现本地缓存
  • 【快手】前端校招一面
  • 自然语言处理-基于注意力机制的文本匹配
  • 并查集LRU cache
  • 【鸿蒙OH-v5.0源码分析之 Linux Kernel 部分】010 - 二号内核线程 kthreadd线程 工作流程分析
  • 前端入门:HTML+CSS简便开发的技巧
  • Python入门:数据类型、控制流与函数详解