当前位置: 首页 > news >正文

大模型(LLM)推理体系全览

MLC LLM


submodules in MLC LLM

大模型(LLM)好性能通用部署方案,陈天奇(tvm发起者)团队开发.

项目链接

docs: https://llm.mlc.ai/docs/

github: https://github.com/mlc-ai/mlc-llm
在这里插入图片描述

支持的平台和硬件

platforms & hardware

支持的模型

|
Architecture

|

Prebuilt Model Variants

|
| — | — |
|

Llama

|

Llama-2, Code Llama, Vicuna, WizardLM, WizardMath, OpenOrca Platypus2, FlagAlpha Llama-2 Chinese, georgesung Llama-2 Uncensored

|
|

GPT-NeoX

|

RedPajama

|
|

GPT-J

|
|
|

RWKV

|

RWKV-raven

|
|

MiniGPT

|
|
|

GPTBigCode

|

WizardCoder

|
|

ChatGLM

|
|
|

ChatGLM

|
|

接口API 支持

Javascript API, Rest API, C++ API, Python API, Swift API for iOS app, Java API & Android App

量化(Quantization) 方法支持

4-bit, LUT-GEMM, GPTQ

ref: https://llm.mlc.ai/docs/compilation/configure_quantization.html

其他

最大的特点是可以快速部署大模型到iOS 和 Android 设备上, 浏览器上运行文生图模型(sd1.5/2.1)和大模型, 推理框架基于tvm-unity.

vLLM


快速简单易用的大模型推理框架和服务,来自加州大学伯克利分校

vLLm 运行大模型非常快主要使用以下方法实现的:

  1. 先进的服务吞吐量

  2. 通过PageAttention 对attention key & value 内存进行有效的管理

  3. 对于输入请求的连续批处理

  4. 高度优化的CUDA kernels

项目链接

docs: Welcome to vLLM!

github: https://github.com/vllm-project/vllm

支持的平台和硬件

NVIDIA CUDA, AMD ROCm

支持的模型

vLLM seamlessly supports many Hugging Face models, including the following architectures:

  • Aquila & Aquila2 (BAAI/AquilaChat2-7B, BAAI/AquilaChat2-34B, BAAI/Aquila-7B, BAAI/AquilaChat-7B, etc.)

  • Baichuan & Baichuan2 (baichuan-inc/Baichuan2-13B-Chat, baichuan-inc/Baichuan-7B, etc.)

  • BLOOM (bigscience/bloom, bigscience/bloomz, etc.)

  • ChatGLM (THUDM/chatglm2-6b, THUDM/chatglm3-6b, etc.)

  • Falcon (tiiuae/falcon-7b, tiiuae/falcon-40b, tiiuae/falcon-rw-7b, etc.)

  • GPT-2 (gpt2, gpt2-xl, etc.)

  • GPT BigCode (bigcode/starcoder, bigcode/gpt_bigcode-santacoder, etc.)

  • GPT-J (EleutherAI/gpt-j-6b, nomic-ai/gpt4all-j, etc.)

  • GPT-NeoX (EleutherAI/gpt-neox-20b, databricks/dolly-v2-12b, stabilityai/stablelm-tuned-alpha-7b, etc.)

  • InternLM (internlm/internlm-7b, internlm/internlm-chat-7b, etc.)

  • LLaMA & LLaMA-2 (meta-llama/Llama-2-70b-hf, lmsys/vicuna-13b-v1.3, young-geng/koala, openlm-research/open_llama_13b, etc.)

  • Mistral (mistralai/Mistral-7B-v0.1, mistralai/Mistral-7B-Instruct-v0.1, etc.)

  • MPT (mosaicml/mpt-7b, mosaicml/mpt-30b, etc.)

  • OPT (facebook/opt-66b, facebook/opt-iml-max-30b, etc.)

  • Phi-1.5 (microsoft/phi-1_5, etc.)

  • Qwen (Qwen/Qwen-7B, Qwen/Qwen-7B-Chat, etc.)

  • Yi (01-ai/Yi-6B, 01-ai/Yi-34B, etc.)

接口API支持

OpenAI-compatible API server

分布式推理和服务(支持Megatron-LM’s tensor parallel algorithm)

可以使用SkyPilot 框架运行在云端

可以使用NVIDIA Triton 快速部署

可以使用LangChain 提供服务

量化(Quantization)方法

4-bit: AutoAWQ

OpenLLM


促进实际生产过程中的大模型的部署,微调,服务和监测.

项目链接

github: GitHub - bentoml/OpenLLM: Operating LLMs in production

支持的平台和硬件

GPU

支持的模型

|
model

|
| — |
|

Baichuan

|
|

ChatGLM

|
|

DollyV2

|
|

Falcon

|
|

FlanT5

|
|

GPTNeoX

|
|

Llama

|
|

Mistral

|
|

MPT

|
|

OPT

|
|

Phi

|
|

Qwen

|
|

StableLM

|
|

StarCoder

|
|

Yi

|

接口API支持 & Integrations

Serve LLMs over a RESTful API or gRPC with a single command. You can interact with the model using a Web UI, CLI, Python/JavaScript clients, or any HTTP client of your choice.

BentoML,OpenAI’s Compatible Endpoints,LlamaIndex,LangChain, andTransformers Agents.

量化(Quantization)方法

  • LLM.int8(): 8-bit Matrix Multiplication through bitsandbytes

  • SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression through bitsandbytes

  • AWQ: Activation-aware Weight Quantization,

  • GPTQ: Accurate Post-Training Quantization

  • SqueezeLLM: Dense-and-Sparse Quantization.

支持多个Runtime, 主要为使用 vllm 和 pytorch backend.

DeepSpeed-MII


MII architecture

针对DeepSpeed 模型实现的,专注于高吞吐量,低延迟和成本效益的开源推理框架

MII(Model Implementations for Inference) 提供加速的文本生成推理通过Blocked KV Caching, Continuous Batching, Dynamic SplitFuse 和高性能的CUDA Kernels, 细节请参考:https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-fastgen

项目链接

https://github.com/microsoft/DeepSpeed-MII

支持的平台和硬件

NVIDIA GPUs

支持的模型

在这里插入图片描述

MII model support

接口API支持

RESTful API

TensorRT-llm


组装优化大语言模型推理解决方案的工具,提供Python API 来定义大模型,并为 NVIDIA GPU 编译高效的 TensorRT 引擎.

TensorRT-LLM is a toolkit to assemble optimized solutions to perform Large Language Model (LLM) inference. It offers a Python API to define models and compile efficientTensorRTengines for NVIDIA GPUs. It also contains Python and C++ components to build runtimes to execute those engines as well as backends for theTriton Inference Serverto easily create web-based services for LLMs. TensorRT-LLM supports multi-GPU and multi-node configurations (through MPI).

项目链接

docs: https://github.com/NVIDIA/TensorRT-LLM/tree/main/docs/source

github: https://github.com/NVIDIA/TensorRT-LLM

支持的平台和硬件

NVIDIA GPUs (H100, L40S, A100, A30, V100)

支持的模型

  • Baichuan

  • Bert

  • Blip2

  • BLOOM

  • ChatGLM

  • Falcon

  • Flan-T5

  • GPT

  • GPT-J

  • GPT-Nemo

  • GPT-NeoX

  • InternLM

  • LLaMA

  • LLaMA-v2

  • Mistral

  • MPT

  • mT5

  • OPT

  • Qwen

  • Replit Code

  • SantaCoder

  • StarCoder

  • T5

  • Whisper

接口API支持

Python API, Pytorch API, C++ API, NVIDIA Triton Inference Server,

量化(Quantization)方法

INT8 SmoothQuant (W8A8), NT4 and INT8 Weight-Only (W4A16 and W8A16), GPTQ and AWQ (W4A16), FP8 (Hopper)

添加图片注释,不超过 140 字(可选)

ref: https://github.com/NVIDIA/TensorRT-LLM/blob/main/docs/source/precision.md

其他

TensorRT-LLM 主要特色:

  • Multi-head Attention(MHA)

  • Multi-query Attention (MQA)

  • Group-query Attention(GQA)

  • In-flight Batching

  • Paged KV Cache for the Attention

  • Tensor Parallelism

  • Pipeline Parallelism

  • INT4/INT8 Weight-Only Quantization (W4A16 & W8A16)

  • SmoothQuant

  • GPTQ

  • AWQ

  • FP8

  • Greedy-search

  • Beam-search

  • RoPE

最后如果您也对AI大模型感兴趣想学习却苦于没有方向👀
小编给自己收藏整理好的学习资料分享出来给大家💖

在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉如何学习AI大模型?👈

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
在这里插入图片描述

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
在这里插入图片描述

四、AI大模型商业化落地方案

在这里插入图片描述

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
在这里插入图片描述


http://www.mrgr.cn/news/53639.html

相关文章:

  • 使用python编写一个画图的软件,背景为黑色, 画笔为白色,在画布上可以进行画图,点击保存按钮后,整体保存为jpg文件
  • 深度学习的一些数学基础
  • 嵌入式入门学习——6Protues点亮数码管,认识位码和段码,分辨共阴还是共阳(数字时钟第一步)
  • 深度学习-机器学习与传统编程区别
  • 重新构建带python的boost库,但是cmake报错找不到 boost_nump
  • 什么是“钻石继承问题”
  • SFT、RLHF、DPO、IFT —— LLM 微调的进化之路_如何搭建自己的dpo
  • Cesium for UE-04-一些说明
  • Docker本地镜像发布到阿里云镜像服务的简易指南
  • 从 PDF 表到见解:在 RAG 中解析 PDF 的另一种方法
  • 基于51单片机的电子时钟数码管显示proteus仿真
  • 正则化-权重衰减
  • Vue Google 广告的配置
  • 数据库原理与应用(基于MySQL):实验六数据查询
  • rpm 命令
  • PPT自动化:如何判断PPT中的shape类型(python-pptx中常见shape类型及其代码速查表)
  • 【学习笔记】理解 C++ 中 reinterpret_cast 和 C 风格类型转换的区别
  • 动态分层强化学习(DHRL)算法详解
  • 西门子嵌入式面试题及参考答案(万字长文)
  • 【SpringBoot系列】SpringBoot中集成日志的几种方式?
  • JavaWeb 开发指南
  • JavaWeb 23.一文速通npm的配置和使用
  • 【代码模板】如何用Python脚本执行shell命令并且获取命令的输出?(subprocess.Popen,subprocess.check_output)
  • TryHackMe 第8天 | Web Fundamentals (三)
  • 如何安全运行别人上传的Python代码?
  • 题目 3161: 蓝桥杯2023年第十四届省赛真题-子矩阵