当前位置: 首页 > news >正文

多模态Embedding不愧是CVPR和NIPS的共同选择!这发文思路真的需要好好学习一下!

最近,多模态Embedding模型的爆火在各个行业引起了广泛关注,改变了机器理解文本和图像的方式,相关应用和学术成果也逐渐增加,目前已有多篇研究被各大顶会录用。

比如CVPR 2024的BadCLIP攻击方法,在对抗现有最先进的后门防御技术时成功率提高了45.3%;再比如NIPS的自适应回报条件策略ARP,能够有效减轻目标误泛化问题。

这得益于多模态Embedding的诸多优势,它不仅可以增强数据理解和分析的能力,还可以提升模型的性能,特别是在处理复杂、多维度的数据时表现出色。另外,多模态Embedding的高适应性和灵活性,也让它在满足多样化的需求方面一骑绝尘。

如果有论文er对此感兴趣,需要这方面的参考以便找idea,我这边也提供11篇多模态Embedding最新论文,开源的代码都附上了,希望可以给各位的论文添砖加瓦。

全部论文+开源代码需要的同学看文末

Badclip: Dual-embedding guided backdoor attack on multimodal contrastive learning

方法:论文讨论了多模态嵌入的安全性问题,特别是针对MCL模型(如CLIP)的后门攻击。论文提出了一种名为BadCLIP的攻击方法,该方法能够在即使存在后门检测和模型微调防御的情况下,也保持有效的攻击能力。

创新点:

  • 通过优化文本嵌入一致性和视觉嵌入抗性,确保视觉触发模式与目标文本语义在嵌入空间中接近,从而减少模型参数的显著变化,降低被检测的风险。

  • BadCLIP在对抗现有最先进的后门防御技术时,攻击成功率提高了45.3%,展示了其在多模态对比学习模型(如CLIP)上的有效性。

Guide Your Agent with Adaptive Multimodal Rewards

方法:作者讨论了多模态嵌入在模仿学习中的应用,提出了一种名为Adaptive Return-conditioned Policy (ARP)的框架,该框架使用自然语言任务描述和预训练的多模态编码器来增强代理(agent)在未见环境中的泛化能力。

创新点:

  • 提出了一种新的模仿学习(IL)框架,称为自适应回报条件策略(ARP),通过使用来自预训练编码器的自适应多模态奖励来训练回报条件策略。

  • 引入了一种微调方案,通过使用域内专家演示数据来调整预训练的CLIP模型,以提高多模态奖励的质量。

  • 证明了使用该框架可以有效地减轻目标误泛化问题,从而在与基于文本的基线相比时实现更好的泛化。

Bliva: A simple multimodal llm for better handling of text-rich visual questions

方法:论文提出了BLIVA模型,一个增强版的InstructBLIP,利用查询嵌入来理解视觉编码器,同时通过额外的视觉助手分支使用编码的图像块嵌入,以提供更丰富的图像信息,从而改善文本和图像的视觉感知与理解。

创新点:

  • 提出了一种结合学习的查询嵌入和编码的图像补丁嵌入的方法,作为视觉助手来增强图像中文本的解释能力。

  • 采用两阶段训练方案,首先在预训练阶段使LLM与视觉信息对齐,接着利用指导微调数据进一步增强性能。

  • 从零开始训练补丁嵌入投影层,并在指导微调阶段对Q-former和补丁嵌入投影层进行微调。

LGMRec: Local and Global Graph Learning for Multimodal Recommendation

方法:论文讨论了多模态推荐系统中的多模态嵌入问题,提出了一个新颖的模型LGMRec,该模型通过构建包含多个节点的超图结构来捕捉复杂的节点依赖关系,整合视觉和文本模态的信息,以改善多模态推荐。

创新点:

  • LGMRec通过独立建模用户的协同相关和模态相关的本地用户兴趣,解决了用户ID嵌入在协同和多模态信号之间耦合的问题。

  • 设计了全局超图嵌入模块,通过建模超图结构依赖性来捕捉用户和物品的全局嵌入。

  • 针对用户模态信息难以获取的问题,提出了一种通过聚合物品模态特征来初始化用户模态特征的方法。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态嵌入”获取全部方案+开源代码

码字不易,欢迎大家点赞评论收藏


http://www.mrgr.cn/news/75154.html

相关文章:

  • 将单色像素值转换成灰阶屏的灰度序列的算法
  • C++编程:利用环形缓冲区优化 TCP 发送流程,避免 Short Write 问题
  • NoETL
  • SQL的基本CRUD操作
  • Rust学习(二):rust基础语法Ⅰ
  • 河南省测绘资质管理制度解析
  • c语言学习16按键控制流水灯
  • 闯关leetcode——3178. Find the Child Who Has the Ball After K Seconds
  • docker安装到D盘
  • 游戏引擎学习第11天
  • 易考八股文之代理模式在AOP中如何应用?
  • Gartner发布XDR扩展检测和响应市场指南:XDR需要具备的19项功能
  • 逆向攻防世界CTF系列31-elrond32
  • 代码随想录算法训练营第46天 | 647. 回文子串、516.最长回文子序列
  • curl 安装最新版
  • 如何在手机上完整下载B站视频并保存到相册?
  • 制造业数字化转型路线图,终于有人捋清楚了
  • 用哈希表封装myunordered_map/_set--C++
  • 《Python网络安全项目实战》项目5 编写网站扫描程序
  • 20241113下载安装虚拟桌面工具VYSOR并连接中科创达的高通CM6125开发板
  • 深入理解ECDSA:椭圆曲线数字签名算法的原理与应用
  • 算法基础 -- 红黑树原理与插入伪代码
  • SpringCloud框架学习(第三部分:Resilience4j 与 Micrometer)
  • 关于我重生到21世纪学C语言这件事——指针详解(1)
  • 【计算机网络】Socket编程接口
  • 【MinIO】Python 运用 MinIO 实现简易文件系统