当前位置: 首页 > news >正文

【AIGC半月报】AIGC大模型启元:2024.10(下)

【AIGC半月报】AIGC大模型启元:2024.10(下)

    • (1) Janus(两面神)(DeepSeek 1.3B多模态大模型)
    • (2) Stable Diffusion 3.5(StabilityAI文生图大模型)
    • (3) Mochi 1(Genmo视频生成大模型)

(1) Janus(两面神)(DeepSeek 1.3B多模态大模型)

2024.10.21 DeepSeek开源了一个仅1.3B大小的多模态大模型:Janus(两面神),统一了多模态理解和生成。通过将视觉编码解耦成独立的pathway,同时仅使用一个统一的transformer架构进行处理。Janus在多模态理解和生成基准测试中超越了以往的统一模型,作为一个多模态“小”模型具有显著的优势。
  Janus 是一个统一的多模态理解和生成的大型语言模型(MLLM),它将多模态理解和生成的视觉编码解耦。Janus 基于 DeepSeek-LLM-1.3b-base 构建,该模型训练时使用了大约5000亿个文本token的语料库。在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持384 x 384像素的图像输入。在图像生成方面,Janus 使用了LlamaGen的tokenizer,并且具有16倍的下采样率。
在这里插入图片描述

推荐文章: 仅1.3B!Janus 统一多模态理解和生成
开源地址:
Paper: https://arxiv.org/abs/2410.13848
Github: https://github.com/deepseek-ai/Janus
Model: https://huggingface.co/deepseek-ai/Janus-1.3B

(2) Stable Diffusion 3.5(StabilityAI文生图大模型)

2024.10.22 StabilityAI最新发布了Stable Diffusion 3.5,这次公开发布包括多个模型,包括Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo。此外,Stable Diffusion 3.5 Medium将于10月29日发布。这些模型因其大小而具有高度的可定制性,可以在消费级硬件上运行,并且根据宽容的Stable AI社区许可证,可以免费用于商业和非商业用途。目前已经可以Hugging Face下载模型,同时推理代码也已经开源
  Stable Diffusion 3.5是Stable Diffusion 3的升级版,主要有三个版本:

  • Stable Diffusion 3.5 Large:8B参数大小,具有卓越的出图质量和提示词遵循能力,是Stable Diffusion家族中最强大的模型。这个模型非常适合专业使用案例,尤其是在1百万像素分辨率下。
  • Stable Diffusion 3.5 Large Turbo:作为Stable Diffusion 3.5 Large的蒸馏版本,它在仅4步内就能生成高质量图像,并且具有出色的提示词遵循能力,使其比Stable Diffusion 3.5 Large快得多。
  • Stable Diffusion 3.5 Medium(将于10月29日发布):2.5B参数大小,通过改进的MMDiT-X架构和训练方法,旨在在消费级硬件上“即开即用”,在质量和定制便捷性之间取得平衡。它能够生成分辨率在0.25到2百万像素之间的图像。

推荐文章: Flux危,SD 3.5王者归来!个人可以免费商用!
开源地址:
Hugging Face:https://huggingface.co/stabilityai
GitHub:https://github.com/Stability-AI/sd3.5

(3) Mochi 1(Genmo视频生成大模型)

2024.10.23 新的视频生成模型Mochi 1发布并开源,Mochi 1在动作质量上展现了显著的改进,同时也具有极强的提示词遵循能力,而且从评测上超过可灵和Gen-3。在Apache 2.0许可证下,目前放出的Mochi 1的预览版可以免费用于个人和商业用途。
  Mochi 1的背后是创业公司Genmo,其团队成员包括DDPM、DreamFusion和Emu Video等项目的核心技术成员。而且Genmo已经完成了由NEA领投的2840万美元A轮融资。
  动作质量和提示词遵循能力是视频生成模型两个最关键的能力。Mochi 1作为一个开源模型,它与领先的封闭商业模型相比也具有非常强的竞争力。具体来说,我们Mochi 1的预览版在以下方面表现出色:

  • 提示词遵循能力:与文本提示词保持一致性,确保生成的视频准确地反映给定的指令。这使用户能够对角色、设定和动作进行详细控制。这里使用视觉语言模型作为评判,遵循OpenAI DALL-E 3的协议,通过自动化指标来评估提示词遵循。这里具体使用Gemini-1.5-Pro-002评估生成的视频。
  • 动作质量:Mochi 1以每秒30帧的流畅度生成长达5.4秒的视频,具有高时间连贯性和逼真的动作动态。Mochi模拟了流体动力学、毛发和头发模拟等物理现象,并表达出一致、流畅的人类动作,开始跨越恐怖谷。评分者被指示专注于动作而非帧级美学(标准包括动作的有趣性、物理上的合理性和流畅性)。Elo分数是按照LMSYS Chatbot Arena协议计算的。

推荐文章: 超过可灵和Gen-3,10B视频生成模型Mochi 1开源!
开源地址:
模型权重:https://huggingface.co/genmo/mochi-1-preview
在线体验:https://genmo.ai/play
代码:https://github.com/genmo/models


http://www.mrgr.cn/news/56947.html

相关文章:

  • 大厂面试真题-说一下推和拉的模式以及常见的使用
  • 面经整理 八股 虾皮购物 Java后端开发 上
  • Python实现股票自动交易:步骤、要点与注意事项有哪些?
  • 【Python爬虫实战】XPath与lxml实现高效XML/HTML数据解析
  • n8n推出自托管 AI 入门工具包,可在本地快速部署AI项目和低代码开发环境
  • lua while循环
  • 【Vulnhub靶场】DC-1
  • 【Java设计模式】1-15章
  • 从0开始深度学习(18)——层和块
  • Java岗临近面试,如何短期突击通过?
  • Qml 动态元素---状态与过渡 --学习测试用例
  • 精华帖分享 | 散户看法-基于邢大散户反着买小视频衍生出的择时指标及这个指标的应用-如何由此构成择时策略
  • 二、KNN算法详解
  • 探索工业自动化网络新境界:FR-TSN交换机与CC-Link IE TSN协议的结合应用
  • 5GC核心网中的南向与北向
  • 智能听诊器:猫咪健康的智能守护者
  • 「C/C++」C++ STL容器库 之 std::map 键值对的集合容器
  • 什么是机器人流量?如何识别和预防有害机器人流量?
  • 预售即断货!西圣H1头戴式耳机好评如潮,99%满意度引爆市场!
  • 『完整代码』坐骑召唤
  • 如何让别人喜欢你的代码
  • 视觉分析在烟火检测中的应用
  • 光谱共焦位移传感器的应用方案组成及测量领域
  • 功能自动化测试工具Appium使用步骤讲解
  • 【uniapp使用内置组件barcode遇到的问题】
  • 2024最新版鸿蒙纯血原生应用开发教程文档丨HarmonyOS 开发准备-成为华为开发者