当前位置: 首页 > news >正文

TensorRT-LLM笔记

原文链接

开启inflight-batching, client侧需要使用inflight_batcher_llm_client.py:

python3 inflight_batcher_llm/client/inflight_batcher_llm_client.py --request-output-len 200 --tokenizer-dir ${HF_LLAMA_MODEL}

bad_words: output中不允许出现的词语;

stop_words: output生成到这些词,则停止;

build engine常用参数:

--gpt_attention_plugin float16

--gemm_plugin float16

--context_fmha enable

--kv_cache_type paged:Paged KV Cache?

Best Practices for Tuning the Performance of TensorRT-LLM — tensorrt_llm documentation

max_batch_sizemax_seq_len and max_num_tokens

--multiple_profiles: 允许trtllm多次尝试,其自动选取性能最好的;

1. 默认打开:--gpt_attention_plugin:in-place update on KV cache;减少了显存占用,减少了显存copy;

2. 默认打开:--context_fmha:attention计算这里,是否采用fused kernel;短句子,用vanilla;长句子,用FlashAttention和FlashAttention2; 官网介绍

3. 默认打开:--remove_input_padding:输入序列末尾不再padding;(我猜就是为inflight-batching?)

4. 默认打开:--paged_kv_cache:Paged Attention;

5. 默认打开: inflight-batching; 当1、3、4都打开时,该功能自动打开;将context阶段的seq和generate阶段的seq,放在同一个batch里,interleave起来进行计算?


http://www.mrgr.cn/news/65563.html

相关文章:

  • 24/11/4 算法笔记 蛇形卷积
  • vue系列==vue路由
  • Docker BUG排查
  • centos lm_sensors 温度探测
  • 联动香港、成都、武汉三所高校!“2024 深圳国际金融科技大赛”校园行圆满结束
  • java学习1
  • 高效内容营销策略提升品牌影响力与客户忠诚度
  • RAC 添加redo log group
  • 惊喜!RFID技术的应用竟如此多元?
  • springboot使用kafka推送数据到服务端,带认证
  • php代码审计--常见函数整理
  • SpringBoot启动器
  • unity游戏开发之--人物打怪爆材料--拾进背包的实现思路
  • React系列教程(2)React哲学
  • 开源呼叫中心系统 FreeIPCC:WebRTC 详解
  • ps和top的区别
  • 「Mac畅玩鸿蒙与硬件27」UI互动应用篇4 - 猫与灯的互动应用
  • 拯救者y7000p 打开XMP
  • 外包干了5年,技术退步太明显了。。。。。
  • day-78 平方数之和
  • ai常见实验
  • 2024年双11买什么东西划算?2024年双十一必买清单好物大总结
  • 24年10月比亚迪创造了中国车企月度销量的新纪录50万辆
  • 弹簧质点系统求Hessian
  • Chrome与傲游浏览器性能与功能的深度对比
  • MySQL 分库分表