当前位置: 首页 > news >正文

跟着chatgpt一起学|多模态入门

目录

一、多模态的学习路径

二、多模态表示学习

2.1 定义:

2.2 目的:

2.3 主要挑战

2.4 常见方法及论文

1. 联合表示学习

2. 协同训练

3. 跨模态映射

4. 多视角学习

2.5 应用

2.6 代表模型

2.7 评估指标

三、多模态的融合技术

1. 早期融合(Early Fusion):

2. 晚期融合(Late Fusion): 

3. 中间融合(Intermediate Fusion):

4. 基于注意力机制的融合(Attention-based Fusion):

5. 基于图的融合(Graph-based Fusion):


一、多模态的学习路径

大家可以根据这个学习路径来进行学习,基础知识和单模态学习不再赘述,下面从多模态基础开始。

二、多模态表示学习

2.1 定义:

多模态表示学习是指从多种不同类型的数据源(如图像、文本、音频、视频等)中学习统一的、有意义的特征表示的过程。

2.2 目的:

  • 创建能够捕捉多种模态间共享语义的统一表示
  • 促进不同模态间的信息融合和转换
  • 提高跨模态任务的性能,如跨模态检索、多模态分类等

2.3 主要挑战

    1. 异构性
        不同模态的数据具有不同的统计特性和表示方式
    2. 对齐
        在不同模态间找到对应关系
    3.融合
        有效地结合来自不同模态的信息
    4. 缺失模态
        处理某些模态可能缺失的情况


2.4 常见方法及论文

1. 联合表示学习

        将多个模态的数据同时输入网络,学习共享表示

  •  模型
    • VGG-Net + LSTM
  • 论文
    • Show and Tell: A Neural Image Caption Generator  (2015)
    • Deep Visual-Semantic Alignments for Generating Image Descriptions  (2015)

2. 协同训练

        分别训练每个模态的编码器,但通过某种方式强制它们学习相似的表示

  • 模型
    • CLIP (Contrastive Language-Image Pre-training)
  • 论文
    • Learning Transferable Visual Models From Natural Language Supervision  (2021)
    • ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy

3. 跨模态映射

        学习从一个模态到另一个模态的映射函数

  • 模型
    • CycleGAN
  • 论文
    • Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (2017)
    • Image-to-Image Translation with Conditional Adversarial Networks (2017)

4. 多视角学习

        将每个模态视为数据的一个"视角",学习它们的共同表示

  • 模型
    • Deep Canonical Correlation Analysis (DCCA)
  • 论文
    • Deep Canonical Correlation Analysis (2013)
    • Multi-View Learning of Word Embeddings via CCA (2011)

2.5 应用

  • 跨模态检索(如以图搜文)
  • 多模态情感分析
  • 视觉问答系统
  • 多模态机器翻译
  • 多模态推荐系统
     

2.6 代表模型

  • CLIP (Contrastive Language-Image Pre-training) 【经典论文】打通文本图像的里程碑--clip_clip论文-CSDN博客
  • VilBERT (Vision-and-Language BERT) 可以先看看什么是VIT?-CSDN博客
  • LXMERT (Learning Cross-Modality Encoder Representations from Transformers)

后续会有论文精读,和这几篇不一样,带大家一起了解下。

2.7 评估指标

  • 跨模态检索性能(如平均精度MAP)

  • 下游任务性能(如分类准确率、BLEU分数等)

  • 表示的可解释性和泛化能力

三、多模态的融合技术

多模态融合是一个复杂的研究领域,涉及多种技术方法。以下是一些常见的多模态融合技术:

1. 早期融合(Early Fusion):

在特征提取阶段就将不同模态的数据进行融合,形成联合表示。优点是可以捕捉模态间的低层次关联,但可能会丢失一些模态特有信息。

2. 晚期融合(Late Fusion): 

在决策阶段才将各模态的处理结果进行融合。保留了各模态的独立性,但可能错过模态间的一些相互作用。

3. 中间融合(Intermediate Fusion):

在网络的中间层对不同模态特征进行融合,是早期融合和晚期融合的折中方案。

4. 基于注意力机制的融合(Attention-based Fusion):

使用注意力机制来动态调整不同模态特征的重要性,有助于模型关注最相关的信息。

5. 基于图的融合(Graph-based Fusion):

将多模态数据表示为图结构,利用图神经网络来学习模态间的关系。

后续还有多模态的论文精读,可以关注一下!

多模态论文串讲-学习笔记(上)-CSDN博客


http://www.mrgr.cn/news/33669.html

相关文章:

  • Junit4测试报错:java.lang.NoClassDefFoundError: org/junit/runner/manipulation/Filter
  • 数字阅读步履蹒跚,阅文集团定位尴尬
  • 结合HashMap与Java 8的Function和Optional消除ifelse判断
  • idea2021git从dev分支合并到主分支master
  • Vue的指令v-model的原理
  • 反序列化- Jackson...
  • ComfyUI三个超实用插件,一定不要错过!
  • JavaEE: 创造无限连接——网络编程中的套接字
  • Python中的null是什么?
  • 梧桐数据库(WuTongDB):向量化查询优化器的技术细节介绍
  • 一行代码实现快速排序
  • OJ在线评测系统 后端开发数据库初始化工作 开发库表 建立数据库索引 Mybatis映射初始化接口开发
  • golang学习笔记2-语法要求,注释与代码风格
  • pycharm加载虚拟环境及运行代码
  • 【VUE3.0】动手做一套像素风的前端UI组件库---Radio
  • 模拟电路工程师面试题
  • Android——Application
  • awd初试
  • 车辆重识别(CVPR2016图像识别的深度残差学习ResNet)论文阅读2024/9/21
  • python异常处理知识简记