当前位置: 首页 > news >正文

最新热点!结合创新!小样本学习+CLIP:超好上手的思路,爽发顶会顶刊

今天给大家推荐一个很好上手的创新思路:小样本学习+CLIP。

这个思路的优势在于:通过利用CLIP模型强大的跨模态表征能力,再结合小样本学习技术,我们就可以在仅提供少量标注样本的情况下,快速适应新的任务,在多个领域实现高效的学习。

更值得一提的是,最近这个方向吸引到了一大波研究兴趣,各大顶会顶刊上相关成果数量繁多,比如收录于CVPR 2024的AMU-Tuning方法、DeIL方法等,以及顶刊IJCV 2024上的CLIP-FSAR框架,投稿热度可见一斑。

为了帮助有论文需求的同学更好地掌握这个创新思路,今天我就来分享11种小样本学习+CLIP创新方法,都是今年最新,开源代码已附~

论文原文+开源代码需要的同学看文末

AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning

方法:论文提出了一种名为AMU-Tuning的方法,用于改进基于CLIP模型的小样本学习性能。该方法通过分析关键组件——logit特征、logit预测器和logit融合——来学习有效的logit偏差,并通过利用辅助特征、多分支训练的特征初始化线性分类器以及基于不确定性的融合策略,将logit偏差有效地整合到CLIP中,以提高小样本分类的准确性。

创新点:

  • 从logit偏差的角度总结和分析了现有的方法,揭示了logit偏差对few-shot分类性能的影响。

  • 提出了AMU-Tuning方法,通过利用适当的辅助特征来预测logit偏差,并使用多分支训练的特征初始化线性分类器进行训练。

  • 引入了基于不确定性的融合方法,将logit偏差融入CLIP进行few-shot分类。

CLIP-guided Prototype Modulating for Few-shot Action Recognition

方法:论文提出了一个名为CLIP-FSAR的框架,用于改进基于CLIP模型的小样本动作识别性能。该框架通过两个关键组件来实现:一是视频-文本对比目标,通过对比视频和相应的类别文本描述来缩小CLIP与小样本视频任务之间的差异;二是原型调制,利用CLIP中的可转移文本概念,通过时间Transformer自适应地细化视觉原型。

创新点:

  • 提出了一种全新的CLIP-FSAR方法,该方法充分利用了CLIP模型的多模态知识。这是第一次尝试将大规模对比语言-图像预训练应用于少样本动作识别领域。

  • 设计了视频-文本对比目标用于CLIP的适应性改变,并通过实现时间Transformer来自适应地调节视觉支持原型的特征。

Transductive Zero-Shot and Few-Shot CLIP

方法:论文提出了一种名为Transductive Zero-Shot and Few-Shot CLIP的方法,用于改进基于CLIP模型的小样本图像分类任务。该方法采用归纳推理,通过联合预测一批未标记查询样本的类别,而不是独立处理每个实例。作者还通过构建视觉-文本概率特征并采用Dirichlet分布建模,提高了分类的准确性。

创新点:

  • 对该聚类方法EM-Dirichlet及其利用硬分配的变体Hard EM-Dirichlet进行了比较评估,与一系列聚类目标函数和算法进行比较。这是对聚类方法进行全面消融研究的第一步。

  • 展示了跨视觉-语言模型的转导推理可以提高图像分类准确性,包括零样本情况。这是对转导推理在这一领域中的新应用。

DeIL : Direct-and-Inverse CLIP for Open-World Few-Shot Learning

方法:论文通过引入直接和反向概念,提出了一种创新的方法DeIL,利用基于CLIP的基础模型有效地进行开放世界少样本学习,包括DeIL-Pretrainer和DeIL-Adapter两个组件,通过纠正噪声标签和对数据进行增强来改进分类性能,实验证明了Direct-and-Inverse概念在OFSL中的有效性和优越性。

创新点:

  • 通过巧妙地应用直接反演的概念,DeIL方法充分利用了基于CLIP的方法的内在能力和先验知识,显著提高了OFSL的性能。

  • 利用冻结的DALL-E模型扩展了OFSL的数据,根据修正后的类别名称生成图像。通过增加和多样化支持样本,这种方法解决了FSL中数据稀缺的问题,提高了模型在查询数据上的泛化能力和性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“小样本结合”获取全部论文+开源代码

码字不易,欢迎大家点赞评论收藏


http://www.mrgr.cn/news/26910.html

相关文章:

  • react-intl——react国际化使用方案
  • 冯·诺依曼体系结构简介:计算机历史的奠基石
  • 软件安装攻略:EmEditor编辑器下载安装与使用
  • KTM580030bit 绝对角度细分器支持最多 4096 对极与一键非线性自校准集成双 16bit 2M SAR ADC
  • 保证RTOS线程安全的常规操作
  • Mybatis通用接口-基于Provider
  • 模型部署基础
  • 2023年09月中国电子学会青少年软件编程(Python)等级考试试卷(一级)答案 + 解析
  • VPP配置网卡多队列no bufs问题
  • Humanize AI 简介
  • vue2基础系列教程之v-model及面试高频问题
  • Brave编译指南2024 Windows篇:构建并启动Brave项目(七)
  • Flutter iOS混淆打包
  • CAESES许可证转移方法
  • Linux下read函数详解
  • 【SpringBoot】调度和执行定时任务--Quartz(超详细)
  • kafka 之 本地部署单机版
  • 9.14 DFS 简单 111 Minimum Depth of Binary Tree 112 Path Sum
  • C/C++动态库函数导出 windows
  • Netty配置SSL证书加密