当前位置: 首页 > news >正文

[ComfyUI]Mochi:最强视频开源模型,它来了!

最近 AI 绘画和 AI 视频都挺热闹的,AI 绘画有新鲜出炉的 SD3.5,AI 视频有智谱开源的 CogVideoX,快手的 Pyramid-Flow 以及 360 推出的 FancyVideo 以及我们今天要介绍的 Genmo 开源的 Mochi 1。

Mochi 是一种基于 Asymmetric Diffusion Transformer(AsymmDiT)架构的视频生成模型,该模型有 100 亿个参数,应该是目前公开发布的规模最大的开源视频生成模型了。

Genmo 发布了 Mochi 1 预览版,今天我们就来体验一下!

好了,话不多说,我们直接开整!

说实话,效果是真的不错,但是生成视频也真的是慢!生成 848 * 480 分辨率的 6s 视频需要 15 分钟。

好了,先来看效果,然后我们再介绍怎么如何使用!

提示词:The camera follows the back of a woman with long hair as she runs, capturing the strands as they whip and flow dynamically in the wind.

提示词:A close-up shot of a young woman’s face during sunset, with soft lighting highlighting her features. Her eyes well up with tears, and her lips quiver slightly, revealing suppressed emotions. The camera gradually zooms in, emphasizing the fine details of her face, finally focusing on her tear-filled eyes.

提示词:A vintage teddy bear on a child’s bed blinks to life as golden sunlight filters through lace curtains, with the camera pulling back to reveal the bear becoming animated.

提示词:A wide shot of a unicorn peacefully grazing in a lush, enchanted forest. The camera captures the unicorn’s shimmering coat, the magical glow of the surrounding flora, and the serene atmosphere of the scene.

提示词:A medium shot of a dog sitting vigilantly beside a sleeping child, its head resting on the bed. The camera captures the dog’s protective stance, the peaceful expression of the child, and the warm light filtering into the room.

提示词:A close-up shot of a child bursting into joyous laughter as colorful confetti rains down. The camera captures the pure delight and sparkle in their eyes, creating a heartwarming and shareable moment

怎么样,还是相当不错的吧,不仅运动幅度很大,而且细节也很到位。篇幅的关系,我们就先演示这么多了。

好了,接下来我们来看看具体如何使用,使用的工具主要还是 ComfyUI,需要显存大小,使用 Q4 量化版本模型的话,需要 12G 以上,并且分辨率只能低于 480P。

全量版本生成 480P 则需要 17G 以上的显存。

如果配置不够或者嫌本地安装麻烦的小伙伴,文末也会提供线上体验地址。

ComfyUI 插件地址:

https://github.com/kijai/ComfyUI-MochiWrapper

插件还没有收录到 ComfyUI 管理器,所以需要我们通过 Git URL 手动下载,如果是秋叶版启动器的小伙伴也可以直接在客户端-版本管理-安装新扩展进行安装。

插件作者提供了两个模型加载节点,一个可以自动下载模型,一个需要我们手动下载模型,两种工作流以及需要的模型听雨都会放在文末的网盘里,需要的小伙伴自取。

以下其中一个工作流,除了模型加载节点不一样以外,其他节点都是一样的。

在这里插入图片描述

我们来看下两个主要的节点吧,以下这个节点主要就是调整我们视频的分辨率以及视频时长的地方,「num_frames」越大则生成视频的时长越长。分辨率越大则占用的显存越高。

在这里插入图片描述

接下来我们再来看下模型加载节点,其实插件安装好并且下载好模型以后,已经可以使用了,但是加载模型节点中「attention_mode」参数默认使用的是「sdpa」,速度非常慢,出一个 480p 的 6s 视频需要 25 分钟以上。

在这里插入图片描述

想要出视频更快,我们就需要把模式切换到「sage_attn」,视频生成速度节省 10 分钟,只需要 15 分钟,虽然还是很慢,但是相比 25 分钟还是快很多了。

直接选择 sage_attn 模式会报错,我们还需要单独安装一些依赖。

首先找到我们的 python 目录,一般就在我们的 ComfyUI 目录下,然后地址栏输入 cmd,敲回车。

在这里插入图片描述

然后输入以下命令进行安装,安装之前也可以先查看下是否有安装,把 install 改成 show 就可以了。

python.exe -s -m pip install sageattention

秋叶版的话,直接在环境维护中的重装单个 Python 组件中输入 sageattention 安装就可以了。

在这里插入图片描述

除此之外,还需要安装 triton,这个稍微复杂一些,首先我们需要在以下链接中找到和我们的 python 版本对应的安装文件。

https://github.com/woct0rdho/triton-windows/releases/tag/v3.1.0-windows.post5

比如听雨这里是 python310,那我们就找到 triton 对应的 310 的安装文件,然后把文件复制到我们的 pyhton 文件下,如果对 python 操作了解的小伙伴就随便放就好了。

在这里插入图片描述

然后回到我们刚才打开的 cmd 界面,输入以下的命令,敲回车进行安装。

python.exe -s -m pip install triton-3.1.0-cp310-cp310-win_amd64.whl

在这里插入图片描述

然后重启我们的 ComfyUI 就可以使用「sage_attn」这个模式了。

如果嫌麻烦的小伙伴也可以直接去 Mochi 的官网进行体验:

https://www.genmo.ai/play

听雨总的体验下来还是非常不错的,尤其是提示词遵循方面很不错,运动幅度也很大,包括视频的流畅度以及物理世界模拟上来讲也是相当不错,细节也很真实到位,就是出视频太慢了。

好了,今天的分享就到这里了,感兴趣的小伙伴快去试试吧!

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

在这里插入图片描述

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述
在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

在这里插入图片描述


http://www.mrgr.cn/news/60451.html

相关文章:

  • 浏览器无法访问非80端口网页
  • Redis 事务 问题
  • 颠覆级AI:10秒生成超清视频
  • 基于centos7.9搭建在线购物网站
  • Java毕业设计项目-ssm图书管理系统
  • 深入理解JAVA虚拟机(一)
  • 使用libimobiledevice+ifuse访问iOS沙盒目录
  • Python(pandas库3)
  • C# 结构型设计模式----适配器模式
  • ShellScript脚本编程1_(介绍与变量篇)
  • 验证俩套加密算法是否互通
  • Apache paimon 优化
  • 【题解】【分治】——黑白棋子的移动
  • Pytorch学习--如何下载及使用Pytorch中自带数据集,如何把数据集和transforms联合在一起使用
  • 【亲测】mini版centos7.9配置网络基础ssh等直接使用
  • Linux端使用百度网盘命令行工具深度指南
  • 运维工程师面试题
  • 《证据规定》之关于鉴定人出庭的操作性规定
  • 一篇教你“uniapp小程序 app新用户引导实现”
  • 使用 LiteLLM 或 Qwen 等 LLM API 替代 OpenAI(Swarm 中应用)
  • Spring 设计模式之工厂模式
  • HelloCTF [RCE-labs] Level 4 - SHELL 运算符
  • php字符过滤绕过方法
  • 越南有哪些主要的电商平台?越南电商什么品类比较畅销?
  • .NET Core WebApi第3讲:第一个WebApi项目、WebApi开发三种模型
  • 猎板pcb批量工厂1.5阶HDI板可直接投产