当前位置: 首页 > news >正文

今日 AI 简报|微软推出通用多智能体系统,支持语音克隆的开源TTS模型,Android 自动化评估等

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


Recraft V3:高质量文本到图像生成

在这里插入图片描述

Recraft V3 是 Recraft 公司推出的高质量文本到图像生成模型。该模型在 Hugging Face 的文本到图像模型排行榜上以 1172 的 ELO 评分荣获第一。Recraft V3 具有先进的设计控制功能,支持用户精确定位文本和元素,定制品牌风格和颜色。模型支持长文本生成,提供用户友好的界面和灵活的定价策略,通过网站、移动应用或 API 使用,为设计师和创意专业人士提供了强大的图像生成解决方案。

资源

  1. 项目官网:https://www.recraft.ai/blog/recraft-introduces-a-revolutionary-ai-model-that-thinks-in-design-language
  2. 在线体验地址:https://fal.ai/models/fal-ai/recraft-v3

GTA:评估通用工具智能体的基准测试

在这里插入图片描述

GTA 是上海交通大学和上海 AI 实验室共同推出的基准测试,评估大型语言模型(LLMs)在真实世界场景中调用工具的能力。GTA 包含 229 个真实设计的问题,覆盖感知、操作、逻辑和创造力等多个类别,要求模型推理合适的工具,规划操作步骤,解决现实世界中的复杂任务。

资源

  1. 项目官网:https://open-compass.github.io/GTA
  2. GitHub 仓库:https://github.com/open-compass/GTA
  3. HuggingFace 模型库:https://huggingface.co/datasets/Jize1/GTA
  4. arXiv 技术论文:https://arxiv.org/pdf/2407.08713

Magentic-One:多AI智能体协同完成复杂任务系统

在这里插入图片描述

Magentic-One 是微软推出的通用多智能体系统,解决跨领域的复杂网络和文件任务。系统基于多智能体架构,由 Orchestrator 智能体领导,协调 WebSurfer、FileSurfer、Coder 和 ComputerTerminal 四个专业智能体执行任务。Magentic-One 支持模块化和灵活性,易于扩展和适应新任务。

资源

  1. 项目官网:https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
  2. GitHub 仓库:https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one
  3. 技术论文:https://www.microsoft.com/en-us/research/publication/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/

AndroidLab:系统化评估 Android 智能代理的框架

在这里插入图片描述

AndroidLab 是清华大学和北京大学联合推出的系统化评估 Android 自主代理的框架,集成文本和图像模态操作环境,统一行动空间和可重现基准测试。AndroidLab 支持大型语言模型和多模态模型,包含 138 个任务,覆盖九个应用。基于 AndroidLab,开发 Android 指令数据集,提升开源模型的成功率。

资源

  1. GitHub 仓库:https://github.com/THUDM/Android-Lab
  2. arXiv 技术论文:https://arxiv.org/pdf/2410.24024

VQAScore:文本到视觉图像生成评估方法

在这里插入图片描述

VQAScore 是 CMU 和 Meta 联合推出的评估方法,基于视觉问答(VQA)模型衡量由文本提示生成的图像质量。VQAScore 用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率,评估图像与文本提示的对齐程度。VQAScore 核心优势在于无需额外人类标注,提供更精确的评估结果。

资源

  1. 项目官网:https://linzhiqiu.github.io/papers/vqascore/
  2. GitHub 仓库:https://github.com/linzhiqiu/t2v_metrics
  3. arXiv 技术论文:https://arxiv.org/pdf/2404.01291
  4. 在线体验 Demo:https://huggingface.co/spaces/zhiqiulin/VQAScore

OuteTTS:开源的文本到语音合成项目

在这里插入图片描述

OuteTTS 是开源的文本到语音(TTS)项目,基于纯语言建模的方法生成语音。OuteTTS 项目基于 LLaMa 架构,用 Oute3-350M-DEV 基础模型,拥有 3.5 亿参数。OuteTTS 具备音频标记化、CTC 强制对齐技术和结构化提示创建等创新音频处理方法,支持语音克隆功能,及用户创建自定义说话人的声音。

资源

  1. GitHub 仓库:https://github.com/edwko/OuteTTS

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


http://www.mrgr.cn/news/68011.html

相关文章:

  • 关于 RK3588多屏显示的时候第二屏幕出现无法矫正的x坐标偏移 的解决方法
  • 哈夫曼编码的实现
  • Android CCodec Codec2 (二十)C2Buffer与Codec2Buffer
  • Linux网络命令:用于查看和修改路由表的重要工具ip route 详解
  • esp32记录一次错误
  • 基于SpringBoot的社区讯息服务小程序【附源码】
  • jdk1.7和jdk1.8有什么区别?
  • 基于Multisim8路抢答器电路仿真电路(含仿真和报告)
  • 关于 Qt+Osg中使用背景图HUD受到后绘制几何图形顶点颜色影响 的解决方法
  • Java8新特性/java
  • 为什么主机状态为 closed_busy LSF还会派发任务去运行?
  • 【NLP】使用 SpaCy、ollama 创建用于命名实体识别的合成数据集
  • 从零构建一个基于PHP和MySQL的文件管理系统
  • App推广社交玩法全解析
  • 数据结构---排序总结
  • 基于Multisim六路抢答器电路(含仿真和报告)
  • 数据链路层Mac协议与ARP协议
  • 每日OJ题_牛客_春游_贪心+数学_C++_Java
  • htop-2.2.0在arm64上的手工编译
  • Prompt 工程