当前位置: 首页 > news >正文

近似推断 - 引言篇

前言

在人工智能的浩瀚领域中,深度学习如同一颗璀璨的明星,引领着技术的前沿。作为其核心组成部分,近似推断在深度学习的模型训练与预测中扮演着至关重要的角色。近似推断,简而言之,是在面对复杂、高维的概率模型时,寻找一种高效、近似的计算方法来替代精确但计算成本高昂的推断过程。随着大数据时代的到来和计算能力的飞跃,深度学习模型变得越来越复杂,传统的精确推断方法往往难以应对这种复杂性,因此,近似推断技术应运而生,并逐渐发展成为深度学习领域不可或缺的一部分。

序言

深度学习模型,如深度神经网络、变分自编码器、生成对抗网络等,在处理图像识别、自然语言处理、推荐系统等任务时,需要高效地估计模型参数和潜在变量的分布。近似推断技术,如变分贝叶斯、马尔可夫链蒙特卡洛方法、随机梯度变分贝叶斯等,为这些模型提供了一种可行的解决方案。它们通过优化近似分布,使得近似分布与真实分布之间的差异最小化,从而在保证计算效率的同时,尽可能地保持推断的准确性。

近似推断

  • 许多概率模型是很难训练的,其原因是很难进行推断。
    • 在深度学习中,我们通常有一系列可见变量 v \boldsymbol{v} v 和一系列潜变量 h \boldsymbol{h} h
    • 推断的挑战往往在于计算 p ( h ∣ v ) p(\boldsymbol{h}\mid\boldsymbol{v}) p(hv) 或者计算在分布 p ( h ∣ v ) p(\boldsymbol{h}\mid\boldsymbol{v}) p(hv) 下期望的困难性。
    • 而这样的操作在一些任务比如最大似然学习中往往又是必需的。
  • 许多诸如受限玻尔兹曼机和概率 PCA \text{PCA} PCA这样的仅仅含有一层隐藏层的简单图模型的定义,往往使得推断操作如计算 p ( h ∣ v ) p(\boldsymbol{h}\mid\boldsymbol{v}) p(hv) 或者计算分布 p ( h ∣ v ) p(\boldsymbol{h}\mid\boldsymbol{v}) p(hv) 下的期望是非常容易的。
    • 不幸的是,大多数的具有多层潜变量的图模型的后验分布都很难处理。
    • 对于这些模型精确的推断算法需要指数量级的运行时间。
    • 即使一些只有单层的模型,如稀疏编码,也存在着这样的问题。
  • 近似推断系列篇章中,我们介绍了几个基本的技巧,用来解决难以处理的推断问题。在后续篇章:深度生成模型中,我们还将描述如何将这些技巧应用到训练其他方法难以奏效的概率模型中,如深度信念网络, 深度玻尔兹曼机。
  • 在深度学习中难以处理的推断问题通常源于结构化图模型中潜变量之间的相互作用。
    • 详见图例1的几个例子。
    • 这些相互作用可能是无向模型的直接作用,也可能是有向模型中同一个可见变量的共同祖先之间的 “ explaining away \text{explaining away} explaining away” 作用。

  • 图例1:深度学习中难以处理的推断问题通常是由于结构化图模型中潜变量的相互作用。
    • 深度学习中难以处理的推断问题通常是由于结构化图模型中潜变量的相互作用
      在这里插入图片描述

    • 说明:

      • 这些相互作用产生于一个潜变量与另一个潜变量或者当 V − \text{V}- V结构的子节点可观察时与更长的激活路径相连。
      • 左图:
        • 一个隐藏单元存在连接的半受限波尔兹曼机 ( semi-restricted Boltzmann Machine \text{semi-restricted Boltzmann Machine} semi-restricted Boltzmann Machine) ( Osindero and Hinton, 2008 \text{Osindero and Hinton, 2008} Osindero and Hinton, 2008)。
        • 由于存在大量潜变量的团, 潜变量的直接连接使得后验分布难以处理。
      • 中图:
        • 一个深度玻尔兹曼机,被分层从而使得不存在层内连接,由于层之间的连接其后验分布仍然难以处理。
      • 右图:
        • 当可见变量可观察时这个有向模型的潜变量之间存在相互作用,因为每两个潜变量都是 coparent \text{coparent} coparent
        • 即使拥有上图中的某一种结构,一些概率模型依然能够获得易于处理的关于潜变量的后验分布。
        • 如果我们选择条件概率分布来引入相对于图结构描述的额外的独立性这种情况也是可能出现的。
        • 举个例子,概率 PCA \text{PCA} PCA的图结构如右图所示,然而由于其条件分布的特殊性质(带有相互正交基向量的线性高斯条件分布)依然能够进行简单的推断。

总结

近似推断技术的发展,极大地推动了深度学习在各个领域的应用。它不仅提高了模型训练的效率和准确性,还为处理复杂、高维的数据提供了强有力的工具。随着技术的不断进步,我们有理由相信,近似推断将在未来的人工智能领域中发挥更加重要的作用。无论是学术研究还是实际应用,近似推断都将成为深度学习领域不可或缺的一部分,引领着人工智能技术向更高、更远的层次迈进。

往期内容回顾


http://www.mrgr.cn/news/55082.html

相关文章:

  • Ansible自动化工具
  • 接口自动化测试实战
  • 查找与排序-选择排序
  • springboot项目多个数据源配置 dblink
  • 多IP连接
  • 2.6.ReactOS系统中从内核中发起系统调用
  • CollageController
  • 光致发光(Photoluminescence, PL)入门版
  • HTML DOM 简介
  • Manim 结构
  • Marin说PCB之GMSL2 的Layout走线的注意事项
  • HTML 区块
  • C++编程规范
  • 408数据结构-折半查找,分块查找 自学知识点整理
  • js模板式生成大疆上云kml文件(含详细注释,已封装成函数)
  • Vue框架
  • 探索音频在线剪辑工具的奇妙世界
  • OpenMetrics 和 Prometheus 数据规范
  • jQuery UI 部件库
  • UE5 gameplay学习1 蓝图修改材质和参数
  • 【QT】常用控件(三)
  • Maven入门到进阶:构建、依赖与插件管理详解
  • 实战OpenCV之机器学习
  • STM32+DHT11温湿度传感器(含完整代码)
  • 【星闪技术】WS63E模块连接华为IoT云
  • Linux操作系统如何制作U盘启动盘