论文精读:TiC-CLIP: Continual Training of CLIP Models(二)
论文精读:TiC-CLIP: Continual Training of CLIP Models(二)
在上一篇中我们初步介绍了这篇论文发现的问题以及挑战,在接下来这篇文章中将详细介绍他们都具体做了哪些新的设计来证明他们的观点并解决问题。
训练变化
1、合并一年中所有月份的数据,将实验限制在年的粒度上
2、使用现成CLIP模型的“Bestpool”过滤确实偏见了所选数据到旧的时间步骤
3、在超大尺度上进行了Bestpool和Basic过滤(无CLIP过滤)的实验。对于大和中等规模,我们只进行了Basic过滤实验
评估任务的设置
I. 动态检索任务:为了创建检索任务,论文从不同的时间戳中采样一批独立同分布(IID)的图像-文本对,并评估给定相应图像的文本检索性能(类似地,给定相应文本的图像检索)。他们将数据集称为TIC-DataComp-Retrieval。
II. 动态分类任务:论文作者们还创建了一个分类数据集TIC-DataComp-Net,它包含CommonPool中的ImageNet类别,并增加了时间戳。受LAIONNet(Shirali & Hardt, 2023)的启发,我们首先过滤掉对应标题只包含一个ImageNet同义词的例子。然后,他们只保留ImageNet同义词定义和标题之间的相似性超过0.5阈值的例子。使用现成的句子嵌入模型(Reimers & Gurevych, 2019)来评估相似性。至关重要的是,与LAIONNet不同,他们不使用CLIP相似性分数来过滤图像-文本对,以避免偏见选择过程。在TIC-DataComp-Net上,他们报告了所有类别的平均准确率,以及每个时间步骤中选定节点(例如,机动车)的平均准确率。
相似性评估:使用现成的句子嵌入模型来评估标题与ImageNet同义词定义之间的相似性,而不是使用CLIP模型,以避免选择过程中的偏见。
动态分类任务的详细设计:
-
TIC-DataComp-Retrieval:为了创建一个检索任务,作者从不同的时间戳中采样一批独立同分布(IID)的图像-文本对,并评估给定图像的文本检索性能(类似地,给定文本的图像检索)。除了一般评估外,他们还从特定领域构建数据集,例如Covid-19子集和Flickr子集。为了创建Covid-19,我们过滤数据集,只保留标题中包含“vid”提及的对。这个搜索过程将数据限制在2019年之后。对于Flickr子集,他们过滤数据集,只保留对应“url”包含Flickr数据的对。
-
TIC-DataComp-Net:他们创建了动态分类数据集TIC-DataComp-Net,它包含CommonPool数据中的ImageNet类别,并增加了时间信息。他们的构建过程从Shirali & Hardt(2023)描述的LAIONet构建过程中获得灵感。特别是,首先过滤那些对应标题只包含ImageNet-1K的一个同义词集的例子。然后还应用额外的基本过滤(Gadre等人,2023),以确保图像的最小尺寸至少为200,标题至少包含2个单词和5个字符。在过滤了ImageNet同义词集的例子后,只保留那些由现成的句子嵌入模型(Reimers & Gurevych,2019)评估的imagenet同义词集定义和标题之间的相似性超过0.5阈值的例子。这个过滤步骤的目的是限制“高”对齐的标题和imagenet同义词集定义之间的例子。
这个最后步骤与LAIONet构建不同。至关重要的是,与LAIONet不同,他们不使用CLIP相似度分数过滤图像-文本对,以避免偏见数据集选择过程。
这两个数据集的创建过程展示了研究者们如何通过特定的过滤和评估策略来构建用于持续学习研究的数据集,以及如何努力确保数据集的质量和相关性,从而更好地评估和改进模型在随时间变化的数据上的性能。
训练的实验协议
1、遵循一种流式协议,数据以大批次的形式逐步向学习器揭示,目标是在每个批次数据到达后尽快实现一个可部署的模型。
2、作者们将早期时间步骤的数据聚合成一个较大的批次,并以其范围内最晚的年份为其标记时间戳。
3、允许方法在每个步骤使用最后一个模型检查点,因为保留每月一个检查点的成本通常可以忽略不计。
4、为确保方法之间的公平比较,他们建立了一个一致的总计算预算,以乘累加操作(MACs)量化,并在每个时间步骤的训练中均匀分配。
5、他们在ImageNet的特定子树上观察到相当大的差距。
定量分析
我们使用OpenAI CLIP编码器嵌入来自不同时间步骤的图像,然后计算Frechet Inception Distance(FID;Seitzer,2020年)。随着时间的推移,我们观察到与第一个时间步骤的数据相比,FID距离有所增加。同样,我们使用预训练的句子转换器从WordNet名词中提取每个标题的前5个类别。我们观察到,与第一个时间步骤的数据相比,WordNet名词分布上的TV距离随时间演变。
- 前两张图:比较了在Covi 2021-2022数据上,以及在Flickr 214-215数据上的检索性能。图中显示了两种模型:一种是在2020年之前数据上训练的OpenAI模型,另一种是在2022年之前数据上训练的OpenClip模型。图中的点表示了不同模型的性能,而线条则表示了性能的趋势或平均值。从图中可以看出,OpenClip模型在Covi数据上的检索性能比OpenAI模型高出约6%,在Flickr数据上的性能也有所提高。
- 后面两张图:展示了在Tic-DataComp-Net 2021-2022数据上的性能,以及在Tic-DataComp-Net 214-215数据上的性能。这张图进一步细分了性能,特别是针对“机动车辆”子树的性能。同样地,图中显示了在2020年之前数据上训练的OpenAI模型和在2022年之前数据上训练的OpenClip模型的性能。从图中可以看出,OpenClip模型在Tic-DataComp-Net数据上的性能比OpenAI模型高出约4%,在“机动车辆”子树上的性能也有所提高。
这两张图的目的是展示随着时间的推移和数据的更新,新训练的模型(OpenClip)相比旧模型(OpenAI)在检索任务上的性能提升。这强调了持续学习的重要性,以及新数据对模型性能的正面影响。同时,这些结果也支持了论文中提出的观点,即通过持续训练可以保持模型在最新数据上的适应性和准确性。
下期预告
1.他们通过观察提出了什么问题
2.他们怎么改进了重放方法,具体方法的详情解释
3.通过他们设置的数据集和重放发法最终收获了什么结果
敬请期待