当前位置: 首页 > news >正文

CXL与近内存计算结合,会发生什么?--part2

四、异构计算案例分析

深度学习推荐系统(DLRM)是一种典型的混合负载应用,它结合了计算密集型和内存密集型操作。为了提高DLRM的吞吐性能,异构计算平台(xPU + CMM-DC)通过将计算密集型任务和内存密集型任务分别分配给最适合处理它们的硬件资源,来实现更高效的执行。

计算密集型操作

  • 全连接层(FC):DLRM中的全连接层(FC)是典型的计算密集型操作,涉及大量的矩阵乘法和非线性激活函数计算。这些操作需要大量的计算资源,并且通常由CPU或GPU等计算单元来处理。

  • 特征交互(Feature Interaction):特征交互也是计算密集型操作的一部分,它涉及到将不同的特征组合起来以生成更高级别的表示。

内存密集型操作

  • 嵌入查找(Embedding Lookup):嵌入查找是指在嵌入表(Embedding Tables)中查找对应的项,这些表通常非常大,并且访问模式是不规则的。嵌入查找属于内存密集型操作,因为它们需要大量的内存读取,并且对内存带宽有较高的要求。

异构 xPU + CMM-DC 平台的设计思路

图片

计算单元(xPU)
  • xPU:xPU代表了多种类型的计算单元,包括CPU、GPU、FPGA、ASIC等。在这个平台上,计算密集型任务(如FC层和特征交互)由最适合处理这些任务的计算单元来执行。例如,GPU通常用于加速矩阵运算,而CPU则负责控制流逻辑。

近内存处理单元(CMM-DC)
  • CMM-DC:通过将计算能力集成到内存附近来优化内存密集型任务的性能。CMM-DC控制器将PNM Engine IP放在CXL IP和内存控制器之间,使得嵌入查找等内存密集型操作可以在靠近数据存储的位置进行处理,从而减少数据传输的延迟。

提升性能的关键因素
完成检查(Completion Check)的延迟
  • 延迟敏感性:对于一些延迟敏感的应用程序,如在线推荐系统,完成检查(Completion Check)可能会成为一个瓶颈。完成检查是指确认所有必要的计算任务已经完成,以便可以继续后续的处理步骤。

  • 优化策略:为了减轻完成检查带来的延迟影响,可以采取多种优化策略,如异步计算、流水线处理以及预取机制等。此外,通过CXL技术提供的高速互连,可以进一步减少完成检查所需的时间。

实现异构计算平台的优势
分布式计算
  • 计算与内存分离:通过将计算密集型任务分配给xPU,而将内存密集型任务交给CMM-DC处理,可以实现计算与内存的有效分离,从而提高整体系统的性能。

  • 资源共享:异构平台允许不同计算单元之间共享资源,如内存池,这有助于提高资源利用率并减少数据复制带来的开销。

灵活性与扩展性
  • 灵活配置:异构平台可以根据具体应用需求灵活配置计算单元和内存资源,以达到最佳性能。

  • 易于扩展:通过CXL技术的支持,系统可以方便地添加更多的计算或内存资源,以应对不断增长的工作负载需求。

异构 xPU + CMM-DC 平台通过将计算密集型任务和内存密集型任务合理分配给最适合处理它们的硬件资源,显著提升了DLRM推理的吞吐性能。通过优化完成检查的延迟,并利用CXL技术实现高效的数据传输,该平台不仅提高了计算效率,还降低了延迟,增强了系统的整体性能。随着技术的不断进步,这种异构计算方案将在更多领域得到应用,为高性能计算环境提供更强有力的支持。


如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:

  • PCIe SSD在温变环境的稳健性技术剖析

  • 2024 NAND领域的机遇与挑战

  • SSD在低地球轨道卫星应用中的挑战

  • CXL内存技术:有效提高GPU利用率

  • 这可能是最清晰的AI存储数据流动图解

  • DWPD指标:为何不再适用于大容量SSD?

  • 突破内存墙:DRAM的过去、现在与未来

  • E1.S接口如何解决SSD过热问题?

  • ZNS SSD是不是持久缓存的理想选择?

  • 存储正式迈入超大容量SSD时代!

  • FMS 2024: 带来哪些存储技术亮点?

  • IEEE报告解读:存储技术发展趋势分析

  • 什么?陶瓷也可以用来存储数据了?

  • 都说固态硬盘寿命短,那么谁把使用寿命用完了吗?

  • 内存原生CRAM技术将会颠覆计算存储的未来?

  • 浅析SSD性能与NAND速率的关联

  • 关于SSD LDPC纠错能力的基础探究

  • 存储系统如何规避数据静默错误?

  • PCIe P2P DMA全景解读

  • 深度解读NVMe计算存储协议

  • 浅析不同NAND架构的差异与影响

  • SSD基础架构与NAND IO并发问题探讨

  • 字节跳动ZNS SSD应用案例解析

  • CXL崛起:2024启航,2025年开启新时代

  • NVMe SSD:ZNS与FDP对决,你选谁?

  • 浅析PCI配置空间

  • 浅析PCIe系统性能

  • 存储随笔《NVMe专题》大合集及PDF版正式发布!


http://www.mrgr.cn/news/60645.html

相关文章:

  • 【Linux系统编程】第三十八弹---信号世界探索:从生活到技术的全面解析
  • react mackDowan 渲染文本,图片,视频
  • 二十二、Python基础语法(模块)
  • YOLO11改进 | 卷积模块 | 提高网络的灵活性和表征能力的动态卷积【附代码+小白可上手】
  • OpenCV中的图像通道合并
  • C语言基础课程 - 第二天
  • 流量特征分析-常见攻击事件 tomcat
  • python3的基本数据类型:List(列表)创建与索引
  • 存储引用服务(OSS)Minio 环境搭建
  • 审阅员工聊天行为|企业该怎么审阅员工的聊天行为?5个方法分享(实用+收藏)
  • 当代年轻人的“发疯文学”也能涨粉变现!报价¥2w+的笔记,你也能做!
  • 长思维PRM
  • 浅析Android View绘制过程中的Surface
  • 时间序列预测(十五)——有关Python项目框架的实例分析
  • 双十一买什么数码好物比较好?五大闭眼入的数码好物别错过!
  • 浅析Android中View的软件绘制流程
  • 【C++】How the C++ Compiler Works
  • Shiro 会话管理和加密
  • 溪源飨提高免疫力治未病:硒+辅酶Q10强力组合
  • numpy——数学运算
  • C++ vector
  • 西门子S7-200 SMART 多泵轮换功能库案例下载
  • 超子物联网HAL库笔记:准备篇
  • TypeScript 接口知识点详解
  • 多态的体现
  • 三维测量与建模笔记 - 2.1 坐标转换基础