当前位置: 首页 > news >正文

ZeRO:用来优化万亿参数模型训练的内存

ZeRO:是Zero Redundancy Optimizer的简写,零冗余优化器。

大型深度学习模型带来了显著的准确率提升,同时也带来了训练几十亿到几万亿的参数的挑战。现存的解决方案比如数据和模型并行化,虽然能有效的处理计算、通讯和开发,但显而易见的基础限制就是如何将这些模型加载进有限的设备内存。ZeRO是一个新颖的解决方案,用来优化内存,大大提高了训练速度,同时增加了可以有效训练的模型大小。ZeRO在数据和模型并行保持低通信量和高计算粒度的训练时消除内存冗余,允许我们根据设备的数量来等比例的缩小模型的尺寸以保持高效训练。

通过对内存需求和通信量的分析表明:在当前的硬件条件下,ZeRO有潜力扩展到超过一万亿参数。实现并验证了ZeRO:它在400个GPU上以超线性加速训练参数超过100B的大型模型,并实现了15Petaflops的吞吐量。这意味着与最先进的技术相比,模型尺寸增加了8倍,可实现的性能增加了10倍。

在可用性方面,ZeRO在没有模型并行机制下可以训练高达13B参数的大型模型(超过 Megatron GPT 8.3B 和T5 11B),这对科学家来说都非常困难。

最后但并非最不重要的一点是,研究人员利用ZeRO,以破纪录的准确性创建了世界上最大的语言模型 (Turing-NLG, 17B parameters)。


http://www.mrgr.cn/news/68304.html

相关文章:

  • 【测试】【Debug】pytest运行后print没有输出
  • P11118 [ROI 2024 Day 2] 无人机比赛 题解
  • sqoop问题汇总记录
  • 数据结构---排序(下)
  • PCL截取ROI
  • 996引擎 - 活捉NPC
  • CRM与SCRM的区别与联系全面解析
  • 第2章2.3立项【硬件产品立项的核心内容】
  • 操作系统-实验报告单(2)
  • 基于java+SpringBoot+Vue的教学资源库系统设计与实现
  • 使用vuex动态设置全局字号
  • Java[面试题]-真实面试2.0
  • 【NLP自然语言处理】深入探索Self-Attention:自注意力机制详解
  • 纹理分析——模型分析方法
  • 大数据-214 数据挖掘 机器学习理论 - KMeans Python 实现 算法验证 sklearn n_clusters labels
  • 【H2O2|全栈】阶段常见面试题(二)【万字大长篇】
  • Arc 浏览器快捷键一网打尽
  • 面试官:什么是雪花算法?啥原理?
  • Windows系统安装部署C++基础开发环境
  • ubuntu内核切换network unclaimed 网卡丢失
  • 河南建筑装饰工程设计专项资质办理成功案例
  • Find My电子秒表|苹果Find My技术与秒表结合,智能防丢,全球定位
  • Kaggle生物信息学挑战:酶稳定性预测大赛
  • 免费数据集网站
  • 快速上手 muduo
  • 05-如何统一管理纷繁杂乱的数据指标?