当前位置：首页 > news >正文

TensorRT-LLM的k8s弹性伸缩部署方案

news 2025/4/26 18:01:06

Scaling LLMs with NVIDIA Triton and NVIDIA TensorRT-LLM Using Kubernetes | NVIDIA Technical Blog

一共涉及4个k8s组件：
1. Deployment：跑起来N个pod；指定NVIDIA官方的triton&trt-llm的docker image，指定好model放在哪个volume里；

2. Service: 指向Deployment，指定port；

3. Prometheus：跑起来1个pod；从Service的triton metrics端口（8002）那里拿到metrics指标（queue time, compute time)，计算得到新指标（二者的比率）；

4. HPA(Horizontal Pod Autoscaler，水平扩展）：根据Prometheus的指标数值，和预先配置好的阈值，来自动新增pod或减少pod；

还可用Grafana工具来看triton指标、trt-llm指标：

从上图可看到，TRT-LLM In-Flight Batcher，一直在0~4之间变动，中间没有变到0这种断崖，证明真的是完成一个request就加一个新的request进来。

http://www.mrgr.cn/news/66643.html

相关文章：

用 Python 自动检测交易图形态的实用指南请查收

【Rust Crate之Actix Web(一)】

i2c-tools 4.3 for Android 9.0

Redis完全指南：从基础功能到缓存管理与高可用性设计

解决SRS推送webrtc流卡顿问题

Java多线程的几种常见写法

w023基于web学生宿舍管理系统的设计与开发

谈谈“项目复盘会议”怎么组织

空间解析几何6：空间圆柱体的离散化表示【附MATLAB代码】

GB/T 28046.3-2011 道路车辆电气及电子设备的环境条件和试验第3部分：机械负荷（10）

独孤思维：图书电商远程诊断，差点晕倒

Qt——常用控件

STM32F405RGT6单片机原理图、PCB免费分享

让性能提升56%的Vue3.5响应式重构之“版本计数”

人工智能技术的未来展望：变革行业、优化生活与工作方式的无限可能

高清美景风景视频素材网站推荐

制定Excel使用规范和指导，提升数据处理的效率和准确性，减少错误和数据丢失的风险

Unity网络通信（part3.序列化和反序列化）

自动化生成和发送报告的Python脚本

详细分析SpringMVC中的@RequestPart注解基本知识