当前位置：首页 > news >正文

今日 AI 简报｜零样本视频生成、移动端轻量语言模型、自动驾驶多模态模型等前沿 AI 技术集中亮相

news 2025/4/26 23:46:55

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

DreamVideo-2：零样本视频生成框架

在这里插入图片描述

DreamVideo-2 是复旦大学和阿里巴巴等机构联合推出的零样本视频定制生成框架。该框架能够根据单一图像和界定框序列生成具有特定主题和精确运动轨迹的视频，无需在测试时进行微调。通过参考注意力机制和混合掩码参考注意力等技术，DreamVideo-2 在主题学习与运动控制上表现优异。

资源

项目官网：https://dreamvideo2.github.io
arXiv 技术论文：https://arxiv.org/pdf/2410.13830

EMMA：端到端自动驾驶多模态模型

在这里插入图片描述

EMMA 是 Waymo 推出的端到端自动驾驶多模态模型。该模型能够将原始相机传感器数据映射到驾驶特定输出，如规划轨迹和感知对象，同时利用预训练的大型语言模型处理多种驾驶任务。EMMA 在 nuScenes 运动规划和 Waymo 开放数据集上展现了先进性能。

资源

arXiv 技术论文：https://arxiv.org/pdf/2410.23262

Voice Changer：变声器模型

在这里插入图片描述

Voice Changer 是 Cartesia 推出的变声器模型，能够将任何音频剪辑的语音转换成其他音色，同时保留原始音频的情感和表达。用户可以从多种高质量声音库中选择音色，或克隆自己的声音，实现个性化的声音转换。

资源

项目官网：https://www.cartesia.ai/blog/voice-changer

Genmoai-smol：视频生成模型

在这里插入图片描述

Genmoai-smol 是针对单 GPU 设备优化的开源 AI 视频生成模型。该模型专为资源有限的设备设计，能够生成高保真度的视频内容，并提供 Gradio UI 和命令行界面，方便用户操作。

资源

GitHub 仓库：https://github.com/victorchall/genmoai-smol

MobileLLM：移动设备语言模型

在这里插入图片描述

MobileLLM 是 Meta 推出的适用于移动设备的轻量级语言模型。该模型在零样本常识推理和聊天交互等任务上表现出色，并支持多种语言理解和生成任务，能够在移动设备上提供高效的自然语言处理能力。

资源

GitHub 仓库：https://github.com/facebookresearch/MobileLLM
HuggingFace 模型库：https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95
arXiv 技术论文：https://arxiv.org/pdf/2402.14905

TimeSuite：长视频理解处理框架

在这里插入图片描述

TimeSuite 是上海 AI Lab 推出的提升 MLLMs 在长视频理解处理的设计框架。该框架通过引入高效的长视频处理机制和高质量的视频数据集 TimePro，显著提升了模型在长视频问答和时间定位任务上的性能。

资源

arXiv 技术论文：https://arxiv.org/pdf/2410.19702

HOVER：人形机器人神经控制模型

在这里插入图片描述

HOVER 是英伟达推出的 1.5M 小模型，用于人形机器人的多功能全身神经控制。该模型能够无缝切换不同的控制模式，实现导航、桌面操作和移动操作等多种任务，并通过策略蒸馏技术整合多种控制技能，提高机器人的效率和灵活性。

资源

项目官网：https://hover-versatile-humanoid.github.io
arXiv 技术论文：https://arxiv.org/pdf/2410.21229

SmolLLM2：紧凑型大型语言模型

在这里插入图片描述

SmolLLM2 是 Hugging Face 推出的紧凑型大型语言模型，提供 1.7B、360M、135M 三个不同参数级别的模型。该模型专注于在设备端运行，能够在本地设备上高效处理各种自然语言处理任务。通过监督微调和超反馈优化技术，SmolLLM2 在理解指令、知识推理和数学问题解决上表现出色，尤其适用于对延迟和数据隐私要求较高的场景。