SimAI万卡集群模拟器,LLM大模型训练通信计算模拟
SimAI,是阿里巴巴构建的一个统一的模拟器,旨在大规模精确有效地模拟LLM训练过程。通过将训练框架、内核计算和集体通信库有选择地高保真集成到仿真过程中,SimAI在仿真中实现了高精度。
简单点来说,SimAI就是模拟,大模型在大规模集群上的训练过程
视频分享在这:
SimAI万卡集群模拟器,LLM大模型训练 通信计算模拟,阿里巴巴_哔哩哔哩_bilibili
AICB工作负载生成器,LLM万卡集群模拟,大语言模型训练,Artificial Intelligence Communication Benchmark)_哔哩哔哩_bilibili
一、集群模拟器出现的原因
1.1 大语言模型需要上万个GPU训练。
单个LLM训练所需的大量GPU严重阻碍了新设计、调优和优化的验证,需要高效模拟器的出现。
1.2 大语言模型集群模拟有助于集群规划
它们有助于提高资源利用率,确保投资回报。因此,模拟器不仅是提高效率的工具,也是最大限度地利用资源并确保基础设施投资产生可衡量结果的战略资产。
二、 模拟器目标
目标1:生成反映真实世界培训的工作负载。
目标2:高保真通信仿真。我们需要一个包含关键优化和增强功能的高精度集体通信模拟器。
目标3:高保真计算模拟。我们需要一个高效的计算模拟器,为大规模模拟提供精度和可扩展性。
目标4:模拟速度快.
三、SimAI模拟器的总体思路
那目标既然已经确定了,那下面开干!我们需要实现哪些东西呢?
四、工作负载生成器:AICB
4.1 AICB简介
AICB (Artificial Intelligence Communication Benchmark),
AICB(人工智能通信基准测试)是一种新颖的基准测试套件,用于从新兴训练和推理应用程序的前景中评估真实和仿真的 GPU 集群的通信系统。与现有的网络基准测试不同,AICB 旨在生成具有与实际应用程序一致的精确模式的通信工作负载。以大型语言模型 (LLM) 训练为例,工作负载随着模型、并行框架和模型参数、并行框架和集合通信库的复杂组合而变化。一般来说,适合使用 AICB 的场景包括但不限于
1) GPU 集群通信系统的基准测试和调整,
2) 调查和分析特定应用程序设置的通信模式,
3) 需要详细描述工作负载的工具,例如模拟器。
这是官网对AICB的一些介绍,我们就记住AICB的两个核心目的
1、记录真实训练时的通信计算耗时
2、生产通信计算以及两者约束的工作负载文件。
4.2 AICB架构
我们正常的分布式执行架构
AICB架构
图我画了,具体区别这里就懒得打字了,大家看视频,哈哈哈,我承认我懒了!
AICB工作负载生成器,LLM万卡集群模拟,大语言模型训练,Artificial Intelligence Communication Benchmark)_哔哩哔哩_bilibili
4.3 AICB的输出
1、记录真实训练时的通信计算耗时
2、生产通信计算以及两者约束的工作负载文件。
五、计算仿真器:SimAI-CM
未完待续
参考资料
GitHub - aliyun/SimAI
aicb: AICB (Artificial Intelligence Communication Benchmark)
SimAI: Unifying Architecture Design and Performance Tunning for Large-Scale Large Language Model Training with Scalability and Precision.