当前位置: 首页 > news >正文

上海AI Lab视频生成大模型书生.筑梦环境搭建推理测试

引子

最近视频生成大模型层出不穷,上海AI Lab推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。OK,那就让我们开始吧。

一、模型介绍

筑梦 2.0 支持 5s-20s 长视频生成,超过其他开源模型的生成时长。同时支持高达 720x480 分辨率的生成。该模型还能够处理多种视频格式,包括横屏、竖屏、4:3、9:16 和 16:9 等比例,极大地扩展了其应用场景。与其他开源模型不同,筑梦 2.0 同步开源了用于视频增强的生成式模型 ——VEnhancer,集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频,解决了视频抖动等常见问题,显著提升了视频的稳定性。

二、环境搭建

1、模型下载

https://huggingface.co/Vchitect/Vchitect-2.0-2B/tree/main

2、环境安装

docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel bash

git clone GitHub - Vchitect/Vchitect-2.0: Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models

cd /workspace/Vchitect/Vchitect-2.0-master

pip install -r requirements.txt -i Simple Index

pip install protobuf -i Simple Index

三、推理测试

1、修改代码

python inference.py --test_file assets/test.txt --save_dir output --ckpt_path models


http://www.mrgr.cn/news/45297.html

相关文章:

  • python中zip()与zip(*)的用法解析
  • 基于SSM的婚恋网站的设计与实现
  • C++:string (用法篇)
  • redux 2020 (2)创建一个项目
  • 如何使用ssm实现基于JSP的电竞交互管理系统开发
  • XCOMPOSITE翻译
  • AWS注册时常见错误处理
  • 本地生活服务项目入局方案解析!本地生活服务商系统能实现怎样的作业效果?
  • 重要的事情说两遍!Prompt「复读机」,显著提高LLM推理能力
  • 前端vue-配置基地址并发送请求
  • 低代码赋能汽车制造产业链场景系列
  • 让你工作效率大大翻倍的编程工具--希望对你有用
  • MAGNET电源维修磁铁电源磁场电源SPS5892
  • TypeScript 中函数的理解及其与 JavaScript 函数的差异
  • Composer入门详解
  • 【C++11】右值引用
  • RFID技术在汽车焊接生产线的智能应用与优化
  • 计算机找不到msvcr110.dll解决方法,详细解读三种靠谱方法
  • javascript中null和undefined的区别
  • 0基础学习CSS(二十二)伪元素