当前位置: 首页 > news >正文

CUDA编程入门代码

一、CUDA核心概念

  1. Host与Device

    • Host‌:CPU及其内存,负责控制流程和复杂逻辑‌。
    • Device‌:GPU及其显存,专为并行计算设计,需通过PCIe总线与Host通信‌。
  2. Kernel函数

    • __global__修饰,在GPU上并行执行的函数,通过<<<grid, block>>>语法指定线程规模‌。
  3. 线程层次结构

    • Thread‌:最小执行单元,通过threadIdx定位‌。
    • Block‌:包含多个线程(最多1024个),块内线程可共享内存(Shared Memory)并通过__syncthreads()同步‌。
    • Grid‌:多个Block的集合,通过blockIdx定位‌。
  4. 内存模型

    • 全局内存(Global Memory)‌:所有线程可访问,容量大但延迟高‌。
    • 共享内存(Shared Memory)‌:Block内共享,速度接近寄存器‌。
    • 常量内存 (Constant Memory):只读内存,适用于在内核执行期间不改变的值。访问速度较快(当所有线程访问相同地址时)。
    • 纹理内存 (Texture Memory):专门用于处理图像和纹理数据的只读内存。提供缓存机制,适合进行空间局部性访问。支持各种过滤和坐标变换。
    • 寄存器(Registers)‌:线程私有,访问最快‌。

二、CUDA编程步骤

  1. 环境配置

    • 安装CUDA Toolkit(如v11.8或更高)并验证nvidia-smi输出‌。
  2. 第一个CUDA程序,比如test.cu文件

    #include "cuda_runtime.h"
    #include "device_launch_parameters.h"
    #include <stdio.h>__global__ void vector_add(float *a, float *b, float *c, int size){int tid = blockIdx.x*blockDim.x + threadIdx.x;if(tid < size){c[tid] = a[tid] + b[tid];}
    }int main() {int size = 1000;float *a, *b, *c, *c_host;c_host = (float*)malloc(sizeof(float)*size);//设备内存分配cudaMalloc(&a, sizeof(float)*size);cudaMalloc(&b, sizeof(float)*size);cudaMalloc(&c, sizeof(float)*size);//初始化及数据传输float a_host[1000];float b_host[1000];int n = 0;for(n=0; n<size; n++){a_host[n] = 1.0;b_host[n] = 99.0;}cudaMemcpy(a,a_host,sizeof(float)*size,cudaMemcpyHostToDevice);cudaMemcpy(b,b_host,sizeof(float)*size,cudaMemcpyHostToDevice);//dim3 block(256); //每Block 256线程dim3 grid((size+256-1)/256);//计算所需Block数(这里根据size计算)vector_add<<<grid,block>>>(a,b,c,size);//结果回传到主机内存cudaMemcpy(c_host,c,sizeof(float)*size,cudaMemcpyDeviceToHost);cudaDeviceSynchronize();  // 等待GPU执行完成printf("host data head:%.2f tail:%.2f\n", c_host[0], c_host[size-1]);cudaFree(a);cudaFree(b);cudaFree(c);free(c_host);return 0;
    }

    编译命令:

    nvcc test.cu -o test
  3. 内存管理
    3.1)使用cudaMalloc分配设备内存,cudaFree释放设备内存。
    使用cudaMallocHost/malloc分配主机内存,使用cudaFreeHost/free释放主机内存。cudamalloc(): 在GPU设备内存上分配内存。需要指定要分配的字节数。返回一个指向device内存的指针。
    malloc():标准的C库函数,在主机(CPU)内存上分配内存。需要指定要分配的字节数。返回一个指向host内存的指针。
    cudaHostAlloc(): 在主机(CPU)内存上分配页对齐的内存。需要指定要分配的字节数。返回一个指向host内存的指针。
    cudaMallocHost(): 等同于cudaHostAlloc()。在主机(CPU)内存上分配页对齐的内存。
    3.2)cudaMemcpy在Host与Device间传输数据‌。
    cudaMemcpy(deviceA, hostA, size, cudaMemcpyHostToDevice); 从主机到设备复制数据。
    cudaMemcpy(hostB, deviceB, size, cudaMemcpyDeviceToHost);从设备到主机复制暑假。


http://www.mrgr.cn/news/93842.html

相关文章:

  • 《OkHttp:工作原理 拦截器链深度解析》
  • 泛型、泛型上限、泛型下限、泛型通配符
  • (更新完)LPZero: Language Model Zero-cost Proxy Search from Zero
  • 梯度计算中常用的矩阵微积分公式
  • How to install nacos 2.5 with podman
  • Java 大视界 -- Java 大数据在智能体育赛事运动员表现分析与训练优化中的应用(122)
  • ALG(Alloy+Loki+Grafana)轻量级日志系统
  • 华为eNSP:配置单区域OSPF
  • ​​《从事件冒泡到处理:前端事件系统的“隐形逻辑”》
  • Deepseek可以通过多种方式帮助CAD加速工作
  • Mybatis Generator 使用手册
  • DeepSeek私有化部署7:openEuler 24.03-LTS-SP1安装Open WebUI
  • MYSQL之创建数据库和表
  • 用Python写一个算24点的小程序
  • 【STM32】STM32系列产品以及新手入门的STM32F103
  • [总概]Vue2/3React Diff算法
  • 【经验分享】Ubuntu20.04编译RK3568 AI模型报错问题(已解决)
  • FPGA时序约束的几种方法
  • 【redis】五种数据类型和编码方式
  • 【2025前端高频面试题——系列二之vue生命周期:vue2】