当前位置: 首页 > news >正文

多模态(Multimodal)通常指的是系统或过程能够处理、整合和理解来自两个或多个不同模式(modality)的信息。

参考:一文读懂「MLLM,Multimodal Large Language Model」多模态大语言模型_mllm,-CSDN博客

参考:【LLM】 MM-LLM:多模态大语言模型的最新进展 (qq.com)

一. 什么是多模态?
多模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,是从多个视角出发对事物进行描述。生活中常见多 模态表示,例如传感器的数据不仅仅包含文字、图像,还可以包括与之匹配的温度、深度信息等。使用多模态数据能够使得事物呈现更加立体、全面,多模态研究成为当前研究重要方面,在情感分析、机器翻译、自然语言处理 和生物医药前沿方向取得重大突破。

多模态(Multimodal)通常指的是系统或过程能够处理、整合和理解来自两个或多个不同模式(modality)的信息。在人工智能领域,尤其是机器学习和深度学习中,多模态处理涉及到结合不同类型的数据,例如:

文本与图像:结合文字描述和对应的图片来增强对内容的理解,比如在图像字幕生成(image captioning)、视觉问答(Visual Question Answering, VQA)等任务中。
音频与视频:同步分析音轨和视频帧以提高语音识别的准确性,或者用于唇读辅助,以及更复杂的场景如会议记录、电影字幕生成等。
传感器数据:融合来自不同类型的传感器(如温度、湿度、加速度计、陀螺仪等)的数据,用于环境监测、健康监控、自动驾驶等领域。
文本与其他结构化数据:将非结构化的文本信息与结构化的数据库或表格数据结合起来进行分析,例如金融交易中的风险评估。
多模态学习的目标是通过利用不同数据模式之间的互补性来提升模型性能,使计算机系统能够更全面地理解和解释复杂的真实世界场景。随着技术的进步,多模态方法正在越来越多的应用领域中得到应用,并推动了跨学科研究的发展。

Transformer颠覆传统模型,但限于单模态领域
ViT的出现打通了CV和NLP之间壁垒,推动多模态演进,ViT中的Patch embedding在提取视觉特征方面效率优势明显
基于Vision Transformer,Video Transformer模型出现,如TimeSformer;
Transformer权重共享决定其适合多模态,如VLMo;
BEiT模型的出现将生成式预训练从NLP迁移到CV上
多模态模型大一统成趋势:2022年8月,微软推出BEiT-3模型,引领图像、文本、多模态迈向大一统。


http://www.mrgr.cn/news/78950.html

相关文章:

  • Java学习笔记(10)--面向对象基础
  • 基于单片机的WIFI、语音、储存、时钟、闹钟、定位系统
  • Python的open()函数buffering参数使用
  • webGis 气象站点数据解析渲染
  • uniapp中父组件调用子组件方法
  • Vue基本语法
  • C语言——自我介绍_Gitee的基本使用
  • linux(centos) 环境部署,安装JDK,docker(mysql, redis,nginx,minio,nacos)
  • 开发系统准备与开发环境配置总结
  • 计算机网络复习1——导言和概论
  • 【Point-LIO】基于Ubuntu20.04的ROS1平台的Point-LIO部署Mid-360激光雷达
  • cocotb pytest
  • C++编写静态库
  • 【webApp之h5端实战】项目基础结构搭建及欢迎页面的实现
  • 【小白学机器学习42】进行多次抽样,样本的分布参数和总体的分布参数的关系
  • Python办公——openpyxl处理Excel每个sheet每行 修改为软雅黑9号剧中+边框线
  • HCIA-openGauss_1
  • 华为HarmonyOS 让应用快速拥有账号能力 -- 3 获取用户手机号
  • 【0347】Postgres内核 startup XLOG 之 核实 pg_wal 、 pg_wal/archive_status (1)
  • 树莓派明明安装了opencv和numpy,却找不到
  • Linux:内存文件 基础io
  • ShardingSphere介绍
  • 密码学实验工具--Cryptool2
  • 利用Ubuntu批量下载modis图像(New)
  • nlp培训重点
  • 【实战】Oracle基础之控制文件内容的5种查询方法