当前位置: 首页 > news >正文

(八)关于InternVL2的优化加速——如何提高三倍的推理速度

(八)关于InternVL2的优化加速——如何提高三倍的推理速度

      • 前言
      • 大模型的加速方式介绍
      • InternVL2模型加速实践
        • 生成方式问题分析
        • 验证加速方式
      • 总结


前言

前面章节《(六)关于InternVL2的单卡、多卡推理》介绍了关于如何使用训练完成的InternVL2模型进行推理。其中单卡、多卡都进行了介绍,但是多卡推理的方式相对于单卡来说仅仅是通过增加总卡的显存从而降低单张卡的显存,并没有实现加速的效果。
所有的大模型官网都会提供推理部署的代码,但是这些都是通过transformers库实现的,而transformers的推理方式都是没有经过加速的方式,往往时间消耗都较大。以我这里的环境为例,一张3090通过transformers构建推理代码,InternVL2-4B推理一张图片需要1.8s,有没有什么方式可以加快推理速度?

大模型的加速方式介绍

我了解的一些目前主流的大语言模型加速方式包括 vLLM、TensorRT-LLM、DeepSpeed、Ollama等。
其中DeepSpeed了解比较多,但更多的还是在训练时用于资源分配。一般使用推理框架的话,都是只能使用别人仓库已经集成好的模型,所以加速方法一般是会慢于模型的开发。这几种方法我实践的不多,有的还没用过,所以这里就简单提一笔。
以上的加速方式都是一些国外的方法,本章节将会介绍如何使用国产框架——LMDeploy 来加速InternVL2模型。
LMDeploy也是由上海人工智能实


http://www.mrgr.cn/news/65933.html

相关文章:

  • 如何看待AI技术的应用前景?
  • solidity call使用
  • MyBatis 第二章
  • 【云备份项目】json以及jsoncpp库的使用
  • 详解SQL单表查询
  • 【FL0013】基于SpringBoot和微信小程序的机电公司管理信息系统
  • 基于SpringBoot的母婴商城的设计与实现
  • 面试“利器“——微学时光
  • MySQL45讲 第十一讲 怎么给字符串字段加索引?
  • 责任链模式 Chain of Responsibility
  • 【指南】这款安全数据交换系统 架构全面创新优化
  • 分类算法——逻辑回归 详解
  • github.com port 22
  • Spring:Bean(创建方式,抽象继承,工厂Bean,生命周期)
  • H5开发指南|掌握核心技术,玩转私域营销利器
  • ES + SkyWalking + Spring Boot:日志分析与服务监控(三)
  • 数据结构————链表
  • MODBUS-TCP全解:有这一篇就够了
  • IP SSL证书
  • 2024年CISSP认证考试通关秘籍:备考方法与实战经验分享
  • idea java 项目右键new file时 为什么是 kotlin class 不是普通class
  • CDGP|数据资产入表:解锁数据价值,驱动数据要素流通的关键引擎
  • Memento 备忘录模式
  • 路径规划 | ROS中多个路径规划算法可视化与性能对比分析
  • 【Vue 全家桶】5、Vuex(更新中)
  • docker构建次数过多导致硬盘爆满,清除