多模态(Multimodal)通常指的是系统或过程能够处理、整合和理解来自两个或多个不同模式(modality)的信息。
参考:一文读懂「MLLM,Multimodal Large Language Model」多模态大语言模型_mllm,-CSDN博客
参考:【LLM】 MM-LLM:多模态大语言模型的最新进展 (qq.com)
一. 什么是多模态?
多模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,是从多个视角出发对事物进行描述。生活中常见多 模态表示,例如传感器的数据不仅仅包含文字、图像,还可以包括与之匹配的温度、深度信息等。使用多模态数据能够使得事物呈现更加立体、全面,多模态研究成为当前研究重要方面,在情感分析、机器翻译、自然语言处理 和生物医药前沿方向取得重大突破。
多模态(Multimodal)通常指的是系统或过程能够处理、整合和理解来自两个或多个不同模式(modality)的信息。在人工智能领域,尤其是机器学习和深度学习中,多模态处理涉及到结合不同类型的数据,例如:
文本与图像:结合文字描述和对应的图片来增强对内容的理解,比如在图像字幕生成(image captioning)、视觉问答(Visual Question Answering, VQA)等任务中。
音频与视频:同步分析音轨和视频帧以提高语音识别的准确性,或者用于唇读辅助,以及更复杂的场景如会议记录、电影字幕生成等。
传感器数据:融合来自不同类型的传感器(如温度、湿度、加速度计、陀螺仪等)的数据,用于环境监测、健康监控、自动驾驶等领域。
文本与其他结构化数据:将非结构化的文本信息与结构化的数据库或表格数据结合起来进行分析,例如金融交易中的风险评估。
多模态学习的目标是通过利用不同数据模式之间的互补性来提升模型性能,使计算机系统能够更全面地理解和解释复杂的真实世界场景。随着技术的进步,多模态方法正在越来越多的应用领域中得到应用,并推动了跨学科研究的发展。
Transformer颠覆传统模型,但限于单模态领域
ViT的出现打通了CV和NLP之间壁垒,推动多模态演进,ViT中的Patch embedding在提取视觉特征方面效率优势明显
基于Vision Transformer,Video Transformer模型出现,如TimeSformer;
Transformer权重共享决定其适合多模态,如VLMo;
BEiT模型的出现将生成式预训练从NLP迁移到CV上
多模态模型大一统成趋势:2022年8月,微软推出BEiT-3模型,引领图像、文本、多模态迈向大一统。