当前位置: 首页 > news >正文

Hopper架构 GEMM教程

一 使用

1.1 makefile

compile:nvcc -arch=sm_90a -lcuda -lcublas -std=c++17 matmul_h100_optimal.cu -o testrun:./test

加入-lcublas,不然会有函数无法被识别 

二 代码分析

2.1 kernel外参数分析

2.1.1 基本参数

    constexpr int BM = 64*2;constexpr int BN = 256;constexpr int BK = 64;constexpr int NUM_THREADS = 128*3;constexpr int QSIZE = 3;constexpr int CLUSTER_M = 2;constexpr int CLUSTER_N = 1;constexpr int NUM_SM = 128;static_assert(NUM_SM % (CLUSTER_M*CLUSTER_N) == 0);

2.1.2 SMem结构体

template <int BM, int BN, int BK, int QSIZE&

http://www.mrgr.cn/news/91792.html

相关文章:

  • Debezium:实时数据捕获与同步的利器
  • 【飞行器原理学习】——1. 机翼及机翼参数
  • 【Python 专题】数据结构 树
  • 自动化之ansible(二)
  • Ecode在流程表单中插入自定义内容
  • 【鸿蒙笔记-基础篇_状态管理】
  • Debezium连接器对比
  • Python与Anaconda在CUDA环境中的角色解析
  • postcss.config.js 动态配置基准值
  • 【教学类-89-06】20250220新年篇05——元宵节灯笼
  • 【学习笔记】Cadence电子设计全流程(二)原理图库的创建与设计(1-4)
  • 毕业项目推荐:基于yolov8/yolov5/yolo11的果蔬检测识别系统(python+卷积神经网络)
  • go-micro
  • 设计模式教程:责任链模式(Chain of Responsibility Pattern)
  • 调用click.getchar()时Windows PyCharm无法模拟键盘输入
  • Jenkins 创建 Node 到 Windows
  • 矩阵加减乘除的意义与应用
  • Docker Mysql 数据迁移
  • 《道德经的启示:人际关系交往的智慧》
  • 拆解微软CEO纳德拉战略蓝图:AI、量子计算、游戏革命如何改写未来规则!