当前位置: 首页 > news >正文

论文略读:MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

202404 arxiv

LoRA的改进

1 Lora的问题

过低的秩会严重限制模型学习和记忆新知识的能力,尤其在需要获取大量领域知识的任务上

2 mora

  • MoRA的关键在于使用方阵M取代LoRA的低秩矩阵A和B,以提升rank
    • 假设原权重矩阵W的维度为d×k
      • Lora的参数量为(d+k)r,rank为r
      • 相同参数量下,MoRA的rank为\sqrt{(d+k)r}

  • 至于压缩算子,论文给出了多种方法
    • 截断:直接截取部分维度

    • 共享:维度合并,共享同一个方阵M的值

    • 解耦:将输入reshape为矩阵,然后与M做矩阵乘法

    • 旋转:在解耦的基础上引入旋转矩阵,增强表达能力

3 结果


http://www.mrgr.cn/news/58859.html

相关文章:

  • ImageSharp报错
  • 01_Linux基础操作CentOS7学习笔记
  • CentOS6升级OpenSSH9.2和OpenSSL3
  • 一张照片和音频,生成会说话唱歌的AI视频!
  • 2024源鲁杯CTF网络安全技能大赛题解-Round1
  • 【我的创作纪念日1024】
  • LLM - 使用 Neo4j 可视化 GraphRAG 构建的 知识图谱(KG) 教程
  • Linux:磁盘深潜:探索文件系统、连接之道与库的奥秘
  • 大麻股Tilray Brands分析:股价已获得强劲支撑,该买入还是卖出?
  • 《ToDesk云电脑vs青椒云性能测试,谁更能实现游戏自由?》
  • 【Python】使用Python实现文件与目录操作:os和shutil模块详解!
  • c++动态规划之动态转移方程
  • 【Django】创建项目、启动及app过程及遇到的问题和解决方案
  • 通过RAG增强大模型回答原本无法回答的问题
  • 【linux】麒麟v10安装ELKB 8.8.X版本(ARM架构)
  • 谷歌浏览器又出新功能,浏览器扩展大调整
  • C++:AVL树的实现
  • STM32使用硬件I2C读写AT24C02 EEPROM(二)
  • useEffect简单介绍
  • USB上传文件到LINUX系统
  • EveryoneNobel:为每个人打造诺贝尔奖风格的纪念图片
  • UART通过DMA接收和发送,使用环形缓冲区,状态机的使用
  • 使用 Kibana 将地理空间数据导入 Elasticsearch 以供 ES|QL 使用
  • 线性表之顺序表
  • 最新版本jdbcutils集成log4j做详细sql日志、自动释放连接...等
  • apt-cache工具