(八)关于InternVL2的优化加速——如何提高三倍的推理速度
(八)关于InternVL2的优化加速——如何提高三倍的推理速度
- 前言
- 大模型的加速方式介绍
- InternVL2模型加速实践
- 生成方式问题分析
- 验证加速方式
- 总结
前言
前面章节《(六)关于InternVL2的单卡、多卡推理》介绍了关于如何使用训练完成的InternVL2模型进行推理。其中单卡、多卡都进行了介绍,但是多卡推理的方式相对于单卡来说仅仅是通过增加总卡的显存从而降低单张卡的显存,并没有实现加速的效果。
所有的大模型官网都会提供推理部署的代码,但是这些都是通过transformers库实现的,而transformers的推理方式都是没有经过加速的方式,往往时间消耗都较大。以我这里的环境为例,一张3090通过transformers构建推理代码,InternVL2-4B推理一张图片需要1.8s,有没有什么方式可以加快推理速度?
大模型的加速方式介绍
我了解的一些目前主流的大语言模型加速方式包括 vLLM、TensorRT-LLM、DeepSpeed、Ollama等。
其中DeepSpeed了解比较多,但更多的还是在训练时用于资源分配。一般使用推理框架的话,都是只能使用别人仓库已经集成好的模型,所以加速方法一般是会慢于模型的开发。这几种方法我实践的不多,有的还没用过,所以这里就简单提一笔。
以上的加速方式都是一些国外的方法,本章节将会介绍如何使用国产框架——LMDeploy 来加速InternVL2模型。
LMDeploy也是由上海人工智能实