当前位置: 首页 > news >正文

cuda实现flash_attn_mma_share_kv源码分析

一 源码分析

1.1 函数入口

void flash_attn_mma_stages_split_q_shared_kv(torch::Tensor Q, torch::Tensor K, torch::Tensor V, torch::Tensor O, int stages) {CHECK_TORCH_TENSOR_DTYPE(Q, torch::kHalf) // Q [B,H,N,D]CHECK_TORCH_TENSOR_DTYPE(K, torch::kHalf) // K [B,H,N,D]CHECK_TORCH_TENSOR_DTYPE(V, torch::kHalf) // V [B,H,N,D]CHECK_TORCH_TENSOR_DTYPE(O, torch::kHalf) // O [B,H,N,D]const int d = Q.size(3); // B, H, N, dif (stages > 1) {switch (d){case 32:launch_flash_attn_mma_stages_split_q_shared_kv<32,  2>(Q, K, V, O);

http://www.mrgr.cn/news/82934.html

相关文章:

  • 全新免押租赁系统打造便捷安全的租赁体验
  • 获取IP地区
  • Django:构建高效Web应用的强大框架
  • NLP项目实战——基于Bert模型的多情感评论分类(附数据集和源码)
  • 基于ASP.NET的动漫网站
  • 芋道源码(无遮羞布版)Spring Boot 全景指南
  • 用VS C#构建Windows服务【纯操作版,附带项目地址】
  • [开源]自动化定位建图系统
  • A/B实验之置信检验(一):如何避免误判 (I类) 和漏报 (II类)
  • 137. 只出现一次的数字 II
  • 【Rust自学】10.8. 生命周期 Pt.4:方法定义中的生命周期标注与静态生命周期
  • 9. C 语言 循环控制结构详解
  • 数据传送类指令
  • 【Linux】上传、下载、压缩、解压
  • Python 模拟登录网页,或者编写爬虫时模拟登录的详细总结
  • 【Rust自学】10.7. 生命周期 Pt.3:输入输出生命周期与3规则
  • 30天开发操作系统 第 12 天 -- 定时器
  • Java虚拟机面试题:JVM调优
  • [创业之路-241]:《从偶然到必然-华为研发投资与管理实践》-2- IPD流程中的业务线、技术线、职能支撑线
  • Web渗透测试之XSS跨站脚本 原理 出现的原因 出现的位置 测试的方法 危害 防御手段 面试题 一篇文章给你说的明明白白
  • Effective C++读书笔记——item11(自赋值)
  • 来说数据库
  • C++ Qt练习项目 QChar功能测试
  • 尚硅谷· vue3+ts 知识点学习整理 |14h的课程(持续更ing)
  • aardio —— 虚表 —— 模拟属性框
  • 安卓OCR使用(Google ML Kit)