当前位置: 首页 > news >正文

服务器双网卡NCCL通过交换机通信

1、NCCL变量设置

export CUDA_DEVICE_MAX_CONNECTIONS=1
export NCCL_SOCKET_IFNAME=eno2
export NCCL_IB_DISABLE=0
#export NCCL_NET=IB
export NCCL_IB_HCA=mlx5_0,mlx5_1
export NCCL_IB_GID_INDEX=3
export NCCL_DEBUG=INFOGPUS_PER_NODE=4MASTER_ADDR=192.168.1.2
MASTER_PORT=6000
NNODES=2
NODE_RANK=0
WORLD_SIZE=$(($GPUS_PER_NODE*$NNODES))

2、路由设置

ps:通过nvlink或者pcie通信不需要

如果两个RDMA网卡不在同一网段,需要互相配置路由:

sudo ip route add 192.168.1.2/32 via 192.168.1.1 dev ens21np0
sudo ip route add 192.168.2.2/32 via 192.168.2.1 dev ens16np0

其中192.168.1.1和192.168.2.1是交换机的地址。
ens21np0的地址是192.168.2.1,ens16np0的地址是192.168.1.2

说明

RDMA网卡并不会存路由和MAC,(根据源码)MAC和出接口都是驱动下发的,
驱动在查找内核路由时,会根据源地址查找出接口,得到该网卡的接口索引
后面查找路由时(nl_socket_modify_cb和其回调get_route_cb)会先设置过滤条件,条件包含了出接口和目的地址
所以,如果不配置这两条路由,内核查到的是直连路由,出接口是不匹配的,也就是查不到所需路由。
可以用ip route get 192.168.2.2 oif ens16np0来模拟查看
在这里插入图片描述


http://www.mrgr.cn/news/82806.html

相关文章:

  • WebRtc02: WebRtc架构、目录结构、运行机制
  • 05容器篇(D2_集合 - D6_容器源码分析篇 - D1_ArrayList)
  • 0基础学前端-----CSS DAY12
  • 【游戏设计原理】52 - 游戏测试
  • 【UI自动化测试】selenium八种定位方式
  • 【前端系列01】优化axios响应拦截器
  • 【学Rust开发CAD】2 创建第一个工作空间、项目及库
  • 【SpringSecurity】二、自定义页面前后端分离
  • 鸿蒙APP之从开发到发布的一点心得
  • 前端实现大文件上传(文件分片、文件hash、并发上传、断点续传、进度监控和错误处理,含nodejs)
  • 每日AIGC最新进展(80): 重庆大学提出多角色视频生成方法、Adobe提出大视角变化下的人类视频生成、字节跳动提出快速虚拟头像生成方法
  • 医学图像分析工具01:FreeSurfer || Recon -all 全流程MRI皮质表面重建
  • ISP图像调优流程
  • Unity中 Xlua使用整理(一)
  • 数组和指针
  • jenkins入门6 --拉取代码
  • 5G学习笔记之SNPN系列之网络选择
  • 在K8S上部署OceanBase的最佳实践
  • <OS 有关> DOS 批处理命令文件,用于创建 python 虚拟机,并进入虚拟机状态执行后继命令 判断虚拟机是否存在,在批处理文件中自定义 虚拟机名字
  • ffmpeg 常用命令
  • day01_ Java概述丶开发环境的搭建丶常用DOS命令
  • selenium合集
  • 【C++】const关键字_运算符重载_继承
  • 基于深度学习的视觉检测小项目(七) 开始组态界面
  • 141.《mac m系列芯片安装mongodb详细教程》
  • 高效内存管理与调试技巧:深入解析 AddressSanitizer