跟着chatgpt一起学|多模态入门
目录
一、多模态的学习路径
二、多模态表示学习
2.1 定义:
2.2 目的:
2.3 主要挑战
2.4 常见方法及论文
1. 联合表示学习
2. 协同训练
3. 跨模态映射
4. 多视角学习
2.5 应用
2.6 代表模型
2.7 评估指标
三、多模态的融合技术
1. 早期融合(Early Fusion):
2. 晚期融合(Late Fusion):
3. 中间融合(Intermediate Fusion):
4. 基于注意力机制的融合(Attention-based Fusion):
5. 基于图的融合(Graph-based Fusion):
一、多模态的学习路径
大家可以根据这个学习路径来进行学习,基础知识和单模态学习不再赘述,下面从多模态基础开始。
二、多模态表示学习
2.1 定义:
多模态表示学习是指从多种不同类型的数据源(如图像、文本、音频、视频等)中学习统一的、有意义的特征表示的过程。
2.2 目的:
- 创建能够捕捉多种模态间共享语义的统一表示
- 促进不同模态间的信息融合和转换
- 提高跨模态任务的性能,如跨模态检索、多模态分类等
2.3 主要挑战
1. 异构性
不同模态的数据具有不同的统计特性和表示方式
2. 对齐
在不同模态间找到对应关系
3.融合
有效地结合来自不同模态的信息
4. 缺失模态
处理某些模态可能缺失的情况
2.4 常见方法及论文
1. 联合表示学习
将多个模态的数据同时输入网络,学习共享表示
- 模型
- VGG-Net + LSTM
- 论文
- Show and Tell: A Neural Image Caption Generator (2015)
- Deep Visual-Semantic Alignments for Generating Image Descriptions (2015)
2. 协同训练
分别训练每个模态的编码器,但通过某种方式强制它们学习相似的表示
- 模型
- CLIP (Contrastive Language-Image Pre-training)
- 论文
- Learning Transferable Visual Models From Natural Language Supervision (2021)
- ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy
3. 跨模态映射
学习从一个模态到另一个模态的映射函数
- 模型
- CycleGAN
- 论文
- Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (2017)
- Image-to-Image Translation with Conditional Adversarial Networks (2017)
4. 多视角学习
将每个模态视为数据的一个"视角",学习它们的共同表示
- 模型
- Deep Canonical Correlation Analysis (DCCA)
- 论文
- Deep Canonical Correlation Analysis (2013)
- Multi-View Learning of Word Embeddings via CCA (2011)
2.5 应用
- 跨模态检索(如以图搜文)
- 多模态情感分析
- 视觉问答系统
- 多模态机器翻译
- 多模态推荐系统
2.6 代表模型
- CLIP (Contrastive Language-Image Pre-training) 【经典论文】打通文本图像的里程碑--clip_clip论文-CSDN博客
- VilBERT (Vision-and-Language BERT) 可以先看看什么是VIT?-CSDN博客
- LXMERT (Learning Cross-Modality Encoder Representations from Transformers)
后续会有论文精读,和这几篇不一样,带大家一起了解下。
2.7 评估指标
-
跨模态检索性能(如平均精度MAP)
-
下游任务性能(如分类准确率、BLEU分数等)
-
表示的可解释性和泛化能力
三、多模态的融合技术
多模态融合是一个复杂的研究领域,涉及多种技术方法。以下是一些常见的多模态融合技术:
1. 早期融合(Early Fusion):
在特征提取阶段就将不同模态的数据进行融合,形成联合表示。优点是可以捕捉模态间的低层次关联,但可能会丢失一些模态特有信息。
2. 晚期融合(Late Fusion):
在决策阶段才将各模态的处理结果进行融合。保留了各模态的独立性,但可能错过模态间的一些相互作用。
3. 中间融合(Intermediate Fusion):
在网络的中间层对不同模态特征进行融合,是早期融合和晚期融合的折中方案。
4. 基于注意力机制的融合(Attention-based Fusion):
使用注意力机制来动态调整不同模态特征的重要性,有助于模型关注最相关的信息。
5. 基于图的融合(Graph-based Fusion):
将多模态数据表示为图结构,利用图神经网络来学习模态间的关系。
后续还有多模态的论文精读,可以关注一下!
多模态论文串讲-学习笔记(上)-CSDN博客