当前位置: 首页 > news >正文

SimAI万卡集群模拟器,LLM大模型训练通信计算模拟

SimAI,是阿里巴巴构建的一个统一的模拟器,旨在大规模精确有效地模拟LLM训练过程。通过将训练框架、内核计算和集体通信库有选择地高保真集成到仿真过程中,SimAI在仿真中实现了高精度。

简单点来说,SimAI就是模拟,大模型在大规模集群上的训练过程

视频分享在这:

SimAI万卡集群模拟器,LLM大模型训练 通信计算模拟,阿里巴巴_哔哩哔哩_bilibili

AICB工作负载生成器,LLM万卡集群模拟,大语言模型训练,Artificial Intelligence Communication Benchmark)_哔哩哔哩_bilibili

一、集群模拟器出现的原因

1.1 大语言模型需要上万个GPU训练。

单个LLM训练所需的大量GPU严重阻碍了新设计、调优和优化的验证,需要高效模拟器的出现。

1.2 语言模型集群模拟有助于集群规划

它们有助于提高资源利用率,确保投资回报。因此,模拟器不仅是提高效率的工具,也是最大限度地利用资源并确保基础设施投资产生可衡量结果的战略资产。

二、 模拟器目标

目标1:生成反映真实世界培训的工作负载。

目标2:高保真通信仿真。我们需要一个包含关键优化和增强功能的高精度集体通信模拟器。

目标3:高保真计算模拟。我们需要一个高效的计算模拟器,为大规模模拟提供精度和可扩展性。

目标4:模拟速度快.

三、SimAI模拟器的总体思路

那目标既然已经确定了,那下面开干!我们需要实现哪些东西呢?

四、工作负载生成器:AICB

4.1 AICB简介

AICB (Artificial Intelligence Communication Benchmark), 

AICB(人工智能通信基准测试)是一种新颖的基准测试套件,用于从新兴训练和推理应用程序的前景中评估真实和仿真的 GPU 集群的通信系统。与现有的网络基准测试不同,AICB 旨在生成具有与实际应用程序一致的精确模式的通信工作负载。以大型语言模型 (LLM) 训练为例,工作负载随着模型、并行框架和模型参数、并行框架和集合通信库的复杂组合而变化。一般来说,适合使用 AICB 的场景包括但不限于

1GPU 集群通信系统的基准测试和调整

2) 调查和分析特定应用程序设置的通信模式

3) 需要详细描述工作负载的工具,例如模拟器。

这是官网对AICB的一些介绍,我们就记住AICB的两个核心目的

1、记录真实训练时的通信计算耗时

2、生产通信计算以及两者约束的工作负载文件。

4.2 AICB架构

我们正常的分布式执行架构

AICB架构

图我画了,具体区别这里就懒得打字了,大家看视频,哈哈哈,我承认我懒了!

AICB工作负载生成器,LLM万卡集群模拟,大语言模型训练,Artificial Intelligence Communication Benchmark)_哔哩哔哩_bilibili

4.3 AICB的输出

1、记录真实训练时的通信计算耗时

2、生产通信计算以及两者约束的工作负载文件。

五、计算仿真器:SimAI-CM

未完待续

参考资料

GitHub - aliyun/SimAI

aicb: AICB (Artificial Intelligence Communication Benchmark)

SimAI: Unifying Architecture Design and Performance Tunning for Large-Scale Large Language Model Training with Scalability and Precision.


http://www.mrgr.cn/news/80606.html

相关文章:

  • 【开源免费】基于Vue和SpringBoot的电影评论网站(附论文)
  • 快速上手:利用 FFmpeg 合并音频文件的实用教程
  • 使用 Vue3 实现摄像头拍照功能
  • Ajax与Axios总结
  • Tomcat原理(5)——tomcat最终实现
  • Java全栈项目:实验室预约管理系统的设计与实现
  • C++ __attribute__((constructor))使用介绍
  • LearnOpenGL学习(高级OpenGL - - 实例化,抗锯齿)
  • 计算机网络-网络层
  • c++:STL:string
  • Pytorch | 从零构建GoogleNet对CIFAR10进行分类
  • Eureka学习笔记-服务端
  • Frida进行Android dex文件整体脱壳
  • 【从零开始入门unity游戏开发之——C#篇04】栈(Stack)和堆(Heap),值类型和引用类型,以及特殊的引用类型string,垃圾回收( GC)
  • Java函数式编程【三】【Stream终止操作】【上】之【简单约简】
  • ElasticSearch 数据聚合与运算
  • 基础开发工具-编辑器vim
  • 005 QT常用控件Qwidget_上
  • linux0.11源码分析第一弹——bootset.s内容
  • kali Linux 2024.3安装教程2024(图文超详细)
  • LED 灯实验
  • C# WinForm移除非法字符的输入框
  • 四、CSS3
  • Java集合 HashMap 原理解读(含源码解析)
  • 灵当crm pdf.php存在任意文件读取漏洞
  • C#速成(GID+图形编程)