当前位置: 首页 > news >正文

图文检索(2):Visual-Linguistic Dependency Encoding for Image-Text Retrieval

Visual-Linguistic Dependency Encoding for Image-Text Retrieval

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
    • 3.1 文本语义依存关系编码
    • 3.2 视觉语义依赖编码
    • 3.3 跨模态相似性推理
    • 3.4. 目标函数
  • 4 实验
  • 5 结论


发布时间(2024 COLING)


标题:用于图像文本检索的 视觉语言 依赖编码

摘要

图像文本检索是弥合自然语言和视觉之间语义鸿沟的一项基本任务。最近的研究主要侧重于将文本含义与视觉外观对齐。然而,他们往往忽略了自然语言表达中的句法结构和视觉实体之间的关系所导致的语义差异。这种疏忽会导致次优对齐和检索性能下降,因为底层语义依赖关系和对象交互在文本和视觉嵌入中仍然没有得到充分编码。 在本文中,我们提出了一种新颖的视觉语言依赖编码 (VL-DE) 框架,它明确地模拟了文本词之间的依赖信息和图像区域之间的交互模式,提高了跨模态表示的判别能力,从而实现了更准确的图像文本检索。具体而言,VL-DE 通过考虑句法关系和依赖类型来增强文本表示,并通过关注其空间相邻区域来增强视觉表示。然后引入交叉注意机制将对齐的区域词对聚合为图像文本相似性。 Winoground(一个专门用于测量视觉语言组合结构推理的数据集)上的分析表明,VL-DE 的表现优于现有方法,证明了其在这项任务上的有效性。在 Flickr30K 和 MS-COCO 两个基准上进行的综合实验进一步验证了我们方法的竞争力。

1 引言

2 相关工作

3 方法

我们提出的 VL-DE 的总体框架如图 2 所示,由三个模块组成。 在第 3.1 和 3.2 节中,我们首先从图像和文本中提取特征,以及额外的语义信息。然后,我们介绍了一种整合复杂依赖关系以学习丰富语义表示的方法。我们分别在第 3.3 和 3.4 节中进一步描述了分段跨模态相似性推理方法和目标函数。

3.1 文本语义依存关系编码

文本特征:词和依赖词嵌入,关系嵌入
句法结构:强调单词之间的关系,使得与图像区域更细致的对齐(h作为query,word作为key,syntactic作为value)

transformer对于词序不敏感,对于关系组合不敏感

3.2 视觉语义依赖编码

视觉特征:
1)物体特征:faster-rcnn检测36个物体,然后经过resnet101得到了物体特征
2)位置特征(5维向量):左上角和右下角两个坐标和区域面积,都是经过归一化的

视觉依赖特征:
找到k个邻近区域,视觉特征 = 本身的 + 邻近的加权求和

3.3 跨模态相似性推理

1)构造全局image向量
2)多角度image与text交互
3)均值池化所有的2)的结果

3.4. 目标函数

三元组排名损失

4 实验

5 结论

在本文中,我们提出了一种用于图像文本检索的新型视觉语言依赖性编码 (VL-DE) 框架。与以前的方法不同,VL-DE 通过结合单词的句法依赖性和区域之间的相邻关系来建模文本成分和视觉场景中的复杂依赖关系,从而更全面地理解局部文本和视觉片段。此外,采用分段交叉注意机制来捕捉跨模态的细微对应关系,从而实现更准确、更翔实的跨模态对齐。大量实验结果证明了我们的 VL-DE 的优越性。


http://www.mrgr.cn/news/29789.html

相关文章:

  • 计算机网络的性能指标
  • 入门sentinel
  • 利用ClasserLoader来实现jar包加载并调用里面的方法
  • 英飞凌PSoC4000T示例工程
  • 洛谷 P1541 [NOIP2010 提高组] 乌龟棋
  • 机器学习实战—天猫用户重复购买预测
  • 【鸿蒙 HarmonyOS NEXT】组件嵌套滚动:nestedScroll
  • 【重学 MySQL】三十四、加密与解密函数
  • Linux进阶 修改文件所在组
  • 在python中安装HDDM
  • C++_类和对象(下篇)—— 内部类、匿名对象、对象拷贝时的编译器优化
  • 【资料分析】刷题日记1
  • 基于stm32的四旋翼无人机控制系统设计系统设计与实现
  • 【python】30、矩阵加法 tensor.sum
  • 【Python报错已解决】 Requests.exceptions.ProxyError: HTTPSConnectionPool
  • 9.18 微信小程序开发笔记
  • C++——判断year是不是闰年。
  • 亲测有效,长期有效的RTSP流地址公网RTSP地址,各种类型的视频源
  • 使用源代码编译R包的过程
  • 【鸿蒙 HarmonyOS NEXT】popup弹窗