当前位置：首页 > news >正文

cuda实现flash_attn_mma_share_kv源码分析

news 2025/4/26 18:18:19

一源码分析

1.1 函数入口

void flash_attn_mma_stages_split_q_shared_kv(torch::Tensor Q, torch::Tensor K, torch::Tensor V, torch::Tensor O, int stages) {CHECK_TORCH_TENSOR_DTYPE(Q, torch::kHalf) // Q [B,H,N,D]CHECK_TORCH_TENSOR_DTYPE(K, torch::kHalf) // K [B,H,N,D]CHECK_TORCH_TENSOR_DTYPE(V, torch::kHalf) // V [B,H,N,D]CHECK_TORCH_TENSOR_DTYPE(O, torch::kHalf) // O [B,H,N,D]const int d = Q.size(3); // B, H, N, dif (stages > 1) {switch (d){case 32:launch_flash_attn_mma_stages_split_q_shared_kv<32,  2>(Q, K, V, O);

http://www.mrgr.cn/news/82934.html

相关文章：

用VS C#构建Windows服务【纯操作版，附带项目地址】

[开源]自动化定位建图系统

A/B实验之置信检验（一）：如何避免误判 (I类) 和漏报 (II类)

137. 只出现一次的数字 II

【Rust自学】10.8. 生命周期 Pt.4：方法定义中的生命周期标注与静态生命周期

9. C 语言循环控制结构详解

数据传送类指令

【Linux】上传、下载、压缩、解压

Python 模拟登录网页，或者编写爬虫时模拟登录的详细总结

【Rust自学】10.7. 生命周期 Pt.3：输入输出生命周期与3规则

30天开发操作系统第 12 天 -- 定时器

Java虚拟机面试题：JVM调优

[创业之路-241]：《从偶然到必然-华为研发投资与管理实践》-2- IPD流程中的业务线、技术线、职能支撑线

Web渗透测试之XSS跨站脚本原理出现的原因出现的位置测试的方法危害防御手段面试题一篇文章给你说的明明白白

Effective C++读书笔记——item11（自赋值）

来说数据库

C++ Qt练习项目 QChar功能测试

尚硅谷· vue3+ts 知识点学习整理 |14h的课程（持续更ing）

aardio —— 虚表 —— 模拟属性框

安卓OCR使用（Google ML Kit）