当前位置: 首页 > news >正文

TensorRT-LLM的k8s弹性伸缩部署方案

Scaling LLMs with NVIDIA Triton and NVIDIA TensorRT-LLM Using Kubernetes | NVIDIA Technical Blog

一共涉及4个k8s组件:
1. Deployment:跑起来N个pod;指定NVIDIA官方的triton&trt-llm的docker image,指定好model放在哪个volume里;

2. Service: 指向Deployment,指定port;

3. Prometheus:跑起来1个pod;从Service的triton metrics端口(8002)那里拿到metrics指标(queue time, compute time),计算得到新指标(二者的比率);

4. HPA(Horizontal Pod Autoscaler,水平扩展):根据Prometheus的指标数值,和预先配置好的阈值,来自动新增pod或减少pod;

还可用Grafana工具来看triton指标、trt-llm指标:

从上图可看到,TRT-LLM In-Flight Batcher,一直在0~4之间变动,中间没有变到0这种断崖,证明真的是完成一个request就加一个新的request进来。


http://www.mrgr.cn/news/66643.html

相关文章:

  • 配置本地策略路由示例
  • BLE 协议之 ATT
  • Android 解决MTK相机前摄镜像问题
  • 劫持微信聊天记录并分析还原 —— 帐号信息截取(一)
  • 探索不同的VGG网络
  • 正则表达式(Regular Expressions)
  • 用 Python 自动检测交易图形态的实用指南请查收
  • 【Rust Crate之Actix Web(一)】
  • i2c-tools 4.3 for Android 9.0
  • Redis完全指南:从基础功能到缓存管理与高可用性设计
  • 解决SRS推送webrtc流卡顿问题
  • Java多线程的几种常见写法
  • w023基于web学生宿舍管理系统的设计与开发
  • 谈谈“项目复盘会议”怎么组织
  • 空间解析几何6:空间圆柱体的离散化表示【附MATLAB代码】
  • GB/T 28046.3-2011 道路车辆 电气及电子设备的环境条件和试验 第3部分:机械负荷(10)
  • 独孤思维:图书电商远程诊断,差点晕倒
  • Qt——常用控件
  • STM32F405RGT6单片机原理图、PCB免费分享
  • 让性能提升56%的Vue3.5响应式重构之“版本计数”
  • 人工智能技术的未来展望:变革行业、优化生活与工作方式的无限可能
  • 高清美景风景视频素材网站推荐
  • 制定Excel使用规范和指导,提升数据处理的效率和准确性,减少错误和数据丢失的风险
  • Unity网络通信(part3.序列化和反序列化)
  • 自动化生成和发送报告的Python脚本
  • 详细分析SpringMVC中的@RequestPart注解基本知识