当前位置：首页 > news >正文

跟着chatgpt一起学|多模态入门

news 2025/7/13 17:00:18

一、多模态的学习路径

二、多模态表示学习

2.1 定义：

2.2 目的：

2.3 主要挑战

2.4 常见方法及论文

1. 联合表示学习

2. 协同训练

3. 跨模态映射

4. 多视角学习

2.5 应用

2.6 代表模型

2.7 评估指标

三、多模态的融合技术

1. 早期融合(Early Fusion):

2. 晚期融合(Late Fusion):

3. 中间融合(Intermediate Fusion):

4. 基于注意力机制的融合(Attention-based Fusion):

5. 基于图的融合(Graph-based Fusion)：

一、多模态的学习路径

大家可以根据这个学习路径来进行学习，基础知识和单模态学习不再赘述，下面从多模态基础开始。

多模态表示学习是指从多种不同类型的数据源（如图像、文本、音频、视频等）中学习统一的、有意义的特征表示的过程。

1. 异构性
       不同模态的数据具有不同的统计特性和表示方式
   2. 对齐
       在不同模态间找到对应关系
   3.融合
       有效地结合来自不同模态的信息
   4. 缺失模态
       处理某些模态可能缺失的情况

将多个模态的数据同时输入网络，学习共享表示

模型
- VGG-Net + LSTM
论文
- Show and Tell: A Neural Image Caption Generator (2015)
- Deep Visual-Semantic Alignments for Generating Image Descriptions (2015)

分别训练每个模态的编码器，但通过某种方式强制它们学习相似的表示

模型
- CLIP (Contrastive Language-Image Pre-training)
论文
- Learning Transferable Visual Models From Natural Language Supervision (2021)
- ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy

学习从一个模态到另一个模态的映射函数

模型
- CycleGAN
论文
- Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (2017)
- Image-to-Image Translation with Conditional Adversarial Networks (2017)

将每个模态视为数据的一个"视角"，学习它们的共同表示

模型
- Deep Canonical Correlation Analysis (DCCA)
论文
- Deep Canonical Correlation Analysis (2013)
- Multi-View Learning of Word Embeddings via CCA (2011)

CLIP (Contrastive Language-Image Pre-training) 【经典论文】打通文本图像的里程碑--clip_clip论文-CSDN博客
VilBERT (Vision-and-Language BERT) 可以先看看什么是VIT？-CSDN博客
LXMERT (Learning Cross-Modality Encoder Representations from Transformers)

后续会有论文精读，和这几篇不一样，带大家一起了解下。