当前位置：首页 > news >正文

ChatSearch：一个基于多轮多模态对话上下文的图像检索数据集，它要求检索系统能够在对话中准确找到目标图像。

news 2025/12/14 23:51:56

2024-10-24，由中国科学院自动化研究所与字节跳动公司合作创建了ChatSearch，这一数据集通过多轮对话上下文来检索图像，极大地推动了开放领域内对话式图像检索技术的发展。

一、研究背景：

在人工智能领域，图像检索技术已经从基于内容的搜索发展到了更加自然和直观的对话式交互。这种对话式图像检索允许用户通过与计算机的互动对话来表达他们想要检索的图像，这种方式更加符合人类的交流习惯。

目前遇到困难和挑战：

1、对话式图像检索需要模型理解多模态对话内容，包括文本和视觉信息，这对模型的多模态理解能力提出了更高的要求。

2、现有的数据集往往缺乏多轮对话上下文，难以支持复杂的推理和世界知识的应用。

3、对话式检索系统需要能够处理开放领域的广泛话题，这对模型的泛化能力是一个挑战。

数据集地址：ChatSearch|图像检索数据集|多模态对话数据集

二、让我们一起来看一下 ChatSearch数据集

ChatSearch是一个基于多轮多模态对话上下文的图像检索数据集，它要求检索系统能够在对话中准确找到目标图像。

数据集包含了针对每张目标图像的多轮多模态对话上下文查询，这些查询由文本和视觉元素交织而成，模拟了用户与系统的互动过程。

数据集构建：

采用了自动化流水线，结合了大规模预训练模型的辅助，并经过领域专家的手动审核。

数据集特点：

1、多模态对话上下文：数据集包含了文本和图像的交互，要求模型能够理解并推理这两种模态的信息。

2、隐含的检索意图：所需检索的图像信息并不直接给出，而是隐含在对话上下文中，需要模型通过复杂推理和世界知识来获取。

3、多样性和复杂性：数据集通过合并不同来源的对话，提供了更复杂和多样的交互场景。

可以使用ChatSearch数据集来训练和评估对话式图像检索模型，通过模拟用户与系统的互动来优化检索性能。

基准测试：

ChatSearch数据集提供了三个子任务：tChatSearch、iChatSearch和mChatSearch，分别对应不同的对话上下文格式，并使用召回率作为评价指标。

生成检索模型 ChatSearcher 可以接受多模态输入并生成文本响应或检索到的图像。ChatSearcher 可以理解多模态对话上下文，推断用户的隐含意图，通过多模态推理和世界知识生成视觉或文本响应，还可以支持结果的交互式细化。

通用对话图像检索数据集 ChatSearch 的自动数据构建管道图示。我们使用基础模型（文本生成器 GPT、图像库检索器和图像字幕器）作为生成工具来生成文本对话和多模态对话，旨在搜索用户所需的图像，如图 1 所示。 3.然后，我们应用上下文合并方法并手动审查这些数据，以构建高质量的评估拆分。

添加图片注释，不超过 140 字（可选）

ChatSearch 测试拆分的统计数据。

我们的生成检索模型 ChatSearcher 的架构。交错文档用作输入，预测单词或检索具有生成训练目标的图像。特殊标记 [IMG] 预测检索图像的位置。我们使用动态更新的特征队列来保存对比样本以进行图像检索。

与 SOTA 模型在视觉对话任务上的比较。

ChatSearcher 的定性结果。我们展示了 ChatSearcher 在各种对话上下文中的对话图像检索能力，展示了优于普通 CLIP 方法的优势。

结合接地和检索的定性结果：使用检索结果查找文本短语描述的区域，并根据源图像的视觉参考检索图像。

结果选择时的交互。我们表明，上一轮图像结果的不同选择会影响下一轮的结果。在这些示例中，用户选择 ChatSearcher 返回的不同图像，并输入相同的指令与模型交互。ChatSearcher 根据用户的选择和说明返回不同的结果。

指令选择的交互。我们表明，同一张图片上的不同文本指令会影响结果。在这些示例中，用户使用相同的图像输入不同的指令。ChatSearcher 根据用户的指令和给定的图像返回不同的结果。

三、让我们一起展望数据集应用：

比如，我是一位历史老师：

我日常工作，比如讲到唐朝的政治和生活文化，我得提前准备一大堆资料，比如翻箱倒柜找历史书，上网搜图片，还得自己编辑PPT，力求把每张图每段文字都弄得明明白白的。讲到唐朝的政治，我得给学生们解释啥叫“三省六部制”，这可不是光靠嘴说就能让学生明白的，得有图有真相。我得找那种古代朝廷的图，然后还得在黑板上比比划划，告诉他们哪儿是中书省，哪儿是门下省，哪儿是尚书省。至于衣食住行、风俗礼仪这些，那就更头疼了，我得找各种唐朝的壁画啊，陶俑啊，尽量让学生们有个直观的感受。

现在有了这个ChatSearch数据集训练的系统，大不一样。

我要讲解唐朝的政治结构，我就跟系统说：“给我展示一下唐朝三省六部制的图。”这系统就能立马从它的资料库里头，找出那些描绘唐朝三省六部制的图片来。这还不算完，它还能根据这些图，给我和学生们讲这背后的历史故事，比如这个制度是怎么来的，为啥要这么搞，这个制度对唐朝有啥影响。再比如，我要讲唐朝的风俗礼仪，我就跟系统说：“给我展示一下唐朝春节的风俗。”系统就能找出那些记录了唐朝春节风俗的图片，还能配上文字说明，让学生们看看唐朝人是怎么过年的，他们穿什么样的衣服，吃什么样的食物，玩什么样的游戏。这比我以前干巴巴地念课本生动多了。这个系统还有个好处，就是它能理解上下文，能根据我们的对话来提供信息。比如我们在讨论唐朝的服饰，有学生可能会问：“那唐朝的房子长啥样？”系统就能立马找出唐朝建筑的图片，让学生们看看唐朝的宫殿、民居都是什么样子。

现在，我再也不用花大把时间去找资料了，课堂上也活跃多了。学生们看着那些图片，听着那些故事，对唐朝的政治和文化有了更深的理解和兴趣。