当前位置: 首页 > news >正文

scaling 的作用

scaling 控制适应程度指的是对原始模型权重的修改幅度。让我用具体例子解释:

假设我们有一个原始的权重矩阵:

原始权重 = [[1000, 2000],[3000, 4000]]

现在看两种不同的 scaling 值如何影响更新:

  1. scaling = 2 (alpha=8, r=4) 时:
LoRA更新 = [[80, 100],[180, 228]]新权重 = [[1080, 2100],   # 1000+80, 2000+100[3180, 4228]]   # 3000+180, 4000+228

这种情况下的改变相对温和,大约是原始值的 8-10%

  1. scaling = 8 (alpha=32, r=4) 时:
LoRA更新 = [[320, 400],    # 80*4, 100*4[720, 912]]    # 180*4, 228*4新权重 = [[1320, 2400],   # 1000+320, 2000+400[3720, 4912]]   # 3000+720, 4000+912

这种情况下的改变更剧烈,大约是原始值的 30-40%

所以 “适应程度” 具体表现在:

  1. 对原始模型的影响大小

    • scaling 小:微小的调整,保持模型主要特性
    • scaling 大:显著的改变,更强的任务适应性
  2. 学习新任务的速度

    • scaling 小:学习较慢,但稳定
    • scaling 大:学习较快,但可能过拟合
  3. 在实践中的选择

    • 如果新任务与原始任务很相似:用小的 scaling
    • 如果新任务差异较大:可以用大的 scaling
    • 通常从小的 scaling 开始尝试,根据效果调整

比如在情感分析任务中:

  • 原模型已经理解基本的语言结构
  • 小的 scaling (如2):微调模型识别特定领域的情感词
  • 大的 scaling (如8):让模型学习完全不同的情感表达方式

http://www.mrgr.cn/news/45512.html

相关文章:

  • Python Kivy 完整应用开发:待办事项列表
  • 【RTCP】Interarrival Jitter: 到达间隔抖动的举例说明
  • 【Transformer 模型中的投影层,lora_projection是否需要?】
  • 点餐小程序实战教程17角色管理
  • OpenHarmony(鸿蒙南向开发)——轻量系统内核(LiteOS-M)【内存调测】
  • Ngx+Lua+Redis 快速存储POST数据
  • 如何使用PSTools工具集中的PSExec修改注册表信息,解决某些注册表项无法删除的问题
  • 以下是一些数据看板的常见使用场景:
  • 招个测试员,我又面试了100+人,未果…
  • 如何在VScode中加入系统安装好的python环境
  • Unity 从零开始的框架搭建1-1 unity中对象调用的三种方式的优缺点分析【干货】
  • PCL 计算法向量(MLS)
  • git commit失败整理
  • FLINK SQL
  • 修改Docker的默认存储路径
  • 个人常用的正则表达式匹配,以及实际应用
  • 【react】开发常用hooks统计
  • 分析和解决js运算精度问题,出现多位小数
  • 算法闭关修炼百题计划(四)
  • 如何下载和安装CLion,图文详解