当前位置：首页 > news >正文

51c大模型~合集89

news 2025/4/27 9:41:10

我自己的原文哦~ https://blog.51cto.com/whaosoft/12815167

#OpenAI很会营销

而号称超强AI营销的灵感岛实测成效如何？

OpenAI 是懂营销的，连续 12 天发布，每天一个新花样，如今刚过一半，热度依旧不减。

毫无疑问，这是 AI 的时代，这是信息爆炸的时代。在这个信息爆炸的时代，营销必不可少，正如著名作家米兰・昆德拉写的那样：「企业只有两个职能：营销和创新。」

并且，营销也已经不再是一个简单的「推销」过程。随着社交媒体的崛起、短视频的风靡和消费者需求的多样化，企业和创作者们在海量内容中争夺用户的注意力，早已陷入了一场「内容大战」。另一方面，各式不一的平台也给企业和创作者带来了巨大的内容生产和分发压力，比如有些平台侧重图文内容，有些平台则更喜欢横版视频，另一些则倾向于竖版视频。

小红书、抖音、哔哩哔哩等都有不同的内容偏好

此外，到了运营阶段，还存在难以转化的问题。这些问题聚集在一起，构成了营销的四大痛点：创意难、生产难、分发难、转化难。

面对无穷无尽的创意、生产、分发和转化压力，谁能真正解锁营销的「终极密码」？

这是个问题，而这个问题的答案或许正是 AI。举个例子，如果我们想要通过短视频宣传一下谷歌前两天发布的突破性量子计算芯片研究。我们完全可以将相关信息提供 AI，让其完成从编写脚本到视频生产的全过程。最终，我们得到了如下视频：

，时长00:59

灵感岛数字人介绍谷歌量子计算芯片 Willow

这段视频的制作使用了灵感岛的数字人视频制作功能。我们只需向其上传讲解文本并选择合适的音色或直接上传讲解音频，便可以生成活灵活现的讲解视频。同时，灵感岛的数字人视频制作功能还配备了一些简单的视频编辑功能，让你可以轻松地完成配置背景、添加素材和字幕等操作。

实际上，数字人只是灵感岛大量功能的冰山一角 —— 他们已经围绕 AI 营销构建了一整套功能体系，可借助 AI 完成从创意灵感、内容生成、批量改写、视频制作到内容分发的所有环节，堪称全链路 AI 营销工具。

从创意到分发如何实现全链路 AI 营销

作为一个全链路 AI 营销工具，灵感岛具有各种各样辅助营销的能力，从文案创作到图片生成再到视频制作以及最后的内容分发，涉及各种常用模态，可说是无所不包。这里我们也仅能选择其中一些有代表性的功能进行介绍。

AI 文案创作：大模型助你生成爆款文案

所有内容最难的其实是创意和灵感，比创意灵感更难的是找到能出爆款的创意和灵感！那我们来看看灵感岛是怎么帮助运营一键 get 爆款配方的。

为了更清晰地展示灵感岛的能力，下面我们将基于一个实践案例来逐步揭示灵感岛的其它核心功能。我们将从一款虚构的产品（机 42」毛绒公仔）开始，借助灵感岛的 AI 制作各种营销材料。

机 42 的简短描述：机 42 毛绒公仔是倾情打造的官方周边，以呆萌治愈的设计和柔软舒适的触感，成为智慧与欢乐的象征。不论是陪伴日常、装饰家居，还是作为节日礼品，它都能带来温暖与愉悦，是送礼和收藏的绝佳选择。机 42 毛绒公仔采用优质短毛绒与环保 PP 棉填充，高约 30cm，重约 300g，符合国家玩具安全标准，适合儿童及成年人使用。

首先，带着我们的机 42 公仔产品，进入灵感岛的 AI 创作中心。我们首先想要为其撰写一篇长文介绍，这时候灵感岛那基于大型语言模型的全文生成能力就能帮上大忙了！

不得不说，这篇文章已经有了发布在微信公众号的水准，但我们还可以使用灵感岛的生成标题和内容润色对其进行进一步优化，比如下面我们就展示了如何将上面生成的前两段文本润色成更加「高大上」的版本。

据悉，灵感岛内部 AI 创意 Lab 已经研发了多款内容智能体，涵盖：账号人设、内容日历、爆款雷达、爆文复刻、视频拆解、一键爆款复刻，让内容策划工作者能把时间都放在调研用户需求和洞察上，而基于洞察后的内容生成，则会借助智能体和工具高效完成。

除此之外，灵感岛「AI 文字魔法师」还支持生成电商评估、小红书笔记和微博批量生成、文案提取、内容安全检查等众多实用功能。而如果你是内容工作者，还可以使用移动端的灵感岛 APP，能享受到 30 余种创作应用场景。

下面就展示了如何使用灵感岛生成一则介绍「机 42」的小红书文案。

可以看到，灵感岛非常出色地完成了任务，甚至可以说超出了预期。它不仅使用 Markdown 标出了需要加粗强调的内容，还添加了小红书爆款文案常用的 emoji 以及恰到好处的标签。

不仅如此，灵感岛还针对亚马逊、抖音等特定营销场景开设了专门的文案工作室，在可帮助完成 Listing 文案和标题的创作和优化等任务，为相关业务运营者提供强有力的助力。

下面展示了一个例子，如果我们想在亚马逊上出售我们的机 42 毛绒公仔，那么完全可以借助灵感岛来编写 Listing 文案。这也凸显了灵感岛在外贸营销中的巨大潜力。

AI 图片创作：一键创作产品宣传图

当然，要发小红书，光有文本可不够，我们还得有吸睛的图片。灵感岛配置了强大的图片工作室，支持从智能抠图、高清放大、智能消除到智能商拍的一系列图像处理任务。

首先，当然是给机 42 「拍」一张凸显其可爱的图片啦！这个过程非常简单，用户只需上传无背景或简单背景的商品图片即可。当然用户也可以自行设定场景等具体需求。

如果我们对生成的场景不满意，我们还可以使用灵感岛的参考生成和商品替换功能将产品放入到我们想要的场景之中。

灵感岛另一个值得重点关注的图片能力是图片翻译，其可以在不改变原图风格的情况下将图片中的文本替换成另一种语言。这项能力对从事外贸和跨境电商的企业来说具有非常重要的实际价值。

当然，灵感岛图片工作室还有模特换脸和背景、智能消除、一键扩图、去除水印和文字等更多功能等着你来挖掘。

AI 视频创作：从脚本到视频

现在，我们已经为机 42 准备好了各种图文，是时候进军短视频了。

在视频脚本创作方面，灵感岛为视频脚本的创作设置了 3 个主要场景：智能脚本工具、AI 行业脚本、短视频智能结构。

智能脚本工具可以根据用户设定的主题自动生成相应脚本，而用户也可以对生成的脚本进行进一步的编辑和优化。之后，用户只需按照脚本描述制作相应视频素材并上传，剩下的交给灵感岛的 AI 处理即可 —— 它能为你的视频合成相应的旁白、搭配合适的音乐、制作相应的剪辑效果并生成合适的封面。

而 AI 行业脚本可以让用户更加细化自己的需求，包括设置短视频带货或直播间引流等具体场景、优惠活动、适用人群、用户痛点等等。

又或者，如果你在网上看到一个想要模仿的爆款视频，你也可以将其导入到灵感岛的短视频智能解析，之后你便可以快速学习爆款视频的逻辑，然后再自己创作一条同样有爆款内容潜质的视频。

不仅如此，灵感岛还支持营销视频规模量产，并且他们还采用了去重算法来辅助提升视频效果。这可以帮助商家轻松高效地打造矩阵账号。

此外，灵感岛还搭建了一个视频热榜，可助力用户轻松把握当前热点。通过精准捕捉当前最热门的视频内容和趋势，用户可以快速把握社交媒体的脉搏，及时调整内容策略，抢占营销制高点。

数字人极速版，免费定制形象

数字人技术已经不新鲜了，但如何真的结合实际运营场景，并真的产生效果，是所有数字人平台和运营商努力的方向。灵感岛搭建了一个丰富的数字人形象库，具备超多主播人设风格，还支持多种语言、不同音色的语音，足以满足各种行业的不同需求。

并且，你不仅能使用灵感岛预先配置的数字人，也能定制自己的数字人！只需上传训练视频和音频以及必要的授权资料，你就能克隆出自己的数字版本！

在如何让数字人视频获得好效果上，灵感岛也做了深度优化工作，从脚本灵感、爆款视频模版、到数字人视频素材的灵活使用、智能剪辑工具，让数字人视频不仅可以替代核心主播或者创始人出演，同时还能真正给用户带去优秀内容，获取有效流量转化。

在技术层面，灵感岛的数字人依托四大核心技术，构建了卓越的数字人生成生态系统。首先是 LIP-Sync 音唇同步技术，可确保数字人说话时口型与语音完美契合；其次是 GAN 对抗神经网络，可为数字人提供逼真且富有表现力的视觉形象；再有 TTS 文本语音生成技术，赋予数字人自然流畅的语音表达能力；最后是 NLP 语义理解技术，使数字人能够准确理解和回应人类交互。这四项技术相互协同、缜密配合，显著提升了数字人的生成质量和自然性。

除了数字人短视频以外，数字人直播也在两年多的运营和磨合中，展现出了稳定的效果。通过精准的形象设计和个性化交互，能够为品牌创造更吸引人的销售场景。不同于传统直播间，数字人技术，叠加团队的运营支撑，可以 24 小时不间断地进行带货直播，帮助品牌快速搭建矩阵直播间、低成本测试直播方向、以及快速实现全员全国直播等场景需求。

同时，数字人技术还可以突破地域和语言限制，实现全球化品牌传播，为企业拓展国际市场，提供更多便捷和高效的解决方案。

内容分发：一站式管理自有与外部矩阵

内容分发是现代数字营销中的关键环节，灵感岛深谙其中精髓。通过创新的内容分发功能，用户可以实现从内容制作到多平台投放的无缝衔接。目前，灵感岛支持抖音、小红书、视频号和快手等主流社交媒体平台，为内容创作者和品牌提供了极大的便利。

这个内容分发平台最大的亮点在于其极致的用户体验。用户只需简单操作，就能同时管理多个社交媒体账户，大幅降低了内容传播的人工成本和技术门槛。虽然目前平台尚未正式开放功能给用户，但已经为用户描绘了未来智能化内容分发的蓝图。

灵感岛的这一功能体现了平台对内容创作生态的深入理解：内容创作不应止步于制作本身，更应该实现高效、精准的传播。结合天下秀本身优秀深度的红人账号资源，以及灵感岛 C 端的素人培养计划，可帮助企业构建有效的分发矩阵，深度解决内容到流量的全链路问题。

随着功能的逐步完善，相信这个内容分发平台将成为灵感岛的又一个核心竞争力，为用户提供更加流畅和高效的内容传播体验。

C 端和 B 端齐发力灵感岛深度构建国内 AI 营销生态

灵感岛是国内少有的同时面向 C 端创作者与 B 端企业，提供全链路 AI 营销服务的工具。

从上面的功能介绍和演示可以看出，灵感岛不仅适用于 C 创作者的日常创作需求，还特别契合 B 端商家和品牌的营销目标。这种 C 端与 B 端双线并行的模式再加上强大的 AI 模型与十多年红人营销数据的加持，是灵感岛成为国内最适合商家体质的 AI 营销工具，为各类企业提供了智能化营销的可能性。

灵感岛的表现之所以这么好，主要是两大核心支撑：

AI 大模型技术。灵感岛已与火山引擎、豆包大模型、智谱等多家大模型厂商深度合作，可使用先进的生成模型实现高质量的智能化内容生成；尤其是在社交营销与短视频内容营销上，灵感岛正在通过合作来构建社交营销智能体全家桶。
天下秀十多年积累的海量红人营销数据。通过深度微调和自然语言处理技术，这些海量数据可用于打造出高质量、专业化的红人语言模型和多模态生成模型。

依托于这些技术，灵感岛顺势而生，并且一开始就成为了 AI 营销垂类应用的引领者。

作为国内红人营销的头部平台型公司，天下秀用灵感岛建立了 B 端企业和 C 端创作者之间的超级连接器。该公司表示：「通过 AI 进行双端赋能，一方面可让更多 C 端用户有机会成为内容创作者，另一方面也能让 B 端企业在内容、用户运营、投放都更加精细化，在营销前端以及后面的生成、制作、分发端都降本增效。」

C 端：已助力数十万创作者完成数千万内容创作

在 C 端，灵感岛提供的 AI 内容创作效率工具可帮助用户成为更优质的创作者。另一端，灵感岛又链接了品牌主、商家，可帮助创作者能够更方便、快捷地实现商业化变现。

自 2023 年 5 月灵感岛 APP 上线以来，其 30 余种创作应用场景已帮助数十万内容创作者创作了数千万条内容。这一成绩不仅体现了灵感岛的技术实力，更彰显了其对创作生态的深入理解。

灵感岛在 C 端的定位是「让人人都能创作，让创作更有价值」。通过降低创作门槛和提供高效工具，灵感岛已成为上千位行业知识者运营个人 IP 的得力助手，为专业创作者提供了全方位的支持和发展平台。通过智能工具和生态链接，灵感岛正在重塑内容创作的生态格局。

B 端：三大核心功能，助力企业实现效果效率双提升

在 B 端，灵感岛企业版于今年上线，其定位为「最适合商家需求的全链路 AI 营销工具」，并通过三大核心功能，帮助企业打造高效内容生态：

AI 内容生成：支持批量生成高质量文案、图片和视频；
AI 智能分析与分发：优化内容策略，实现精准投放；
AI 智能分发：快速构建品牌矩阵分发体系，实现内容到流量全闭环。

相较于其它 AI 营销工具，灵感岛的主要优势体现在能够提供全链路 AI 营销服务。从文案生成到图片加工和视频创作再到最后的内容分发，这一切都可以在灵感岛这一个平台上完成。目前，灵感岛企业版的客户已包含多家一线品牌和数十家中小企业。

在数字人应用方面，灵感岛的成果同样令人瞩目。公司已帮助超 2 万家门店成功克隆数字人，打造出了万店流量矩阵，显著提升了它们的品牌营销的效率与效果。

另外，天下秀还向透露，目前该公司还有两大面向 B 端的功能正在布局中。一是前面已经提到的内容分发功能，二是面向外贸企业和跨境电商用户推出的海外短视频电商功能，这两个功能都将在近期上线。此外，灵感岛 12 月内还会推出 AI 视频小程序，其功能主要是针对数字人的相关视频制作，如文案提取、文案改写、数字人一键克隆、视频快速生成等，能够实现手机端智能化批量生产优质素材。灵感岛表示未来还会涉及到更广泛和高效的 AI 业务以及效果流量业务。

值得一提的是，灵感岛于 12 月 2 日成功通过北京市生成式人工智能服务登记，成为北京市首批获批的此类应用之一。这不仅是对其技术实力的认可，也确立了灵感岛在 AI 营销领域的领先地位。

站稳国内红人营销头部市场引领 AI 营销未来

自 2009 年创立以来，天下秀便一直深耕红人营销领域，并早已成长为「红人新经济第一股」。依托于其多年积累的海量红人营销数据，灵感岛是毫无疑问的国内 AI 营销超强工具。

在数字化浪潮和 AI 技术快速迭代的今天，天下秀通过灵感岛重新定义了营销生态。从内容生产到数字人创建，从智能分析到多平台分发，灵感岛构建了一个前所未有的 AI 营销闭环。这不仅是技术创新，更是对整个数字营销生态的颠覆性重构。

回望过去，天下秀在红人营销领域的积累为灵感岛奠定了坚实基础。展望未来，随着 AI 技术的不断进步，灵感岛有望成为连接创作者、品牌和用户的重要平台，推动营销模式的革命性变革。在这个充满可能的时代，天下秀正用灵感岛书写 AI 营销的崭新篇章。

想要更完整地体验灵感岛，请访问官网：

https://market.linggandaquan.com

#World Labs这样实现「空间智能」

遵循世界的 3D 特性，很多事就会变得自然而然。

说到斯坦福大学教授李飞飞（Fei-Fei Li），她提倡的「空间智能」最近正在引领 AI 发展方向。

李飞飞已经在人工智能历史上赢得了一席之地，她多年来一直致力于创建 ImageNet 数据集和竞赛，在深度学习革命中发挥了重要作用。

2012 年，一个名为 AlexNet 的神经网络引爆了 AI 研究界，它的表现远远超过所有其他类型的模型，并赢得了当年的 ImageNet 竞赛。自那时起，神经网络开始腾飞，其动力来自互联网上可用的大量免费训练数据和提供空前计算能力的 GPU。

自 ImageNet 以来的 13 年里，计算机视觉研究者们掌握了物体识别，并转向图像和视频生成。李飞飞与他人共同创办了斯坦福大学以人为本人工智能研究所 (HAI)，并继续突破计算机视觉的界限。

就在今年，她创办了一家初创公司 World Labs，旨在生成用户可以探索的 3D 场景。World Labs 致力于为人工智能提供「空间智能」，即生成、推理和与三维世界互动的能力。

李飞飞昨天在人工智能顶会 NeurIPS 上发表了主题演讲，讲述了她对机器视觉的愿景。她表示，非常荣幸第一次在 NeurIPS 上演讲，50 分钟讲 180 页 PPT 是个很有趣的经历。

在演讲之前，李飞飞接受了 IEEE Spectrum 的独家采访，让我们看看她对空间智能有哪些新的见解：

Eliza Strickland：你为什么把你的演讲命名为「提升视觉智能的阶梯（Ascending the Ladder of Visual Intelligence）？」

李飞飞：智能具有不同层次的复杂性和精细度。在这次演讲中我想传达的是，在过去几十年，尤其是深度学习发生变革的十多年里，我们在视觉智能方面学会做的事情简直令人叹为观止。我们正在变得越来越擅长使用这项技术。同时，我也受到了 Judea Pearl 因果阶梯理论的启发，这一理论出自他 2020 年出版的书《The Book of Why》。

演讲还有一个副标题，即「从看到做到（From Seeing to Doing）」。这是人们没有足够重视的一点：从看到与交互和做事紧密相关，无论是对于动物还是对于 AI 智能体来说都是如此。这与语言背道而驰。语言从根本上来说是一种用来传达思想的交流工具。在我看来，它们是非常互补但同样深刻的智能模式。

Eliza Strickland：你的意思是我们对某些视觉刺激有本能的反应吗？

李飞飞：我不仅仅是在谈论本能。如果你观察感知的演变和动物智能的演变，你会发现它们是深深交织在一起的。每当我们能够从环境中获取更多信息时，进化的力量就会推动事物能力和智能向前发展。如果你不能感知环境，你与世界的关系就非常被动；无论你是捕食者还是被捕食者，都是一个非常被动的行为。

但是一旦你能够通过感知从环境中获取线索，进化的压迫感就会增加，这推动了智能的发展。

Eliza Strickland：你认为这就是我们创造越来越深层次的机器智能的方式吗？通过让机器更多地感知环境？

李飞飞：我不确定「深度」这个词是不是我该用的形容词。我认为我们正在创造更多的能力。我认为它将变得更加复杂，更有能力。解决空间智能问题确实是朝着全面智能（full-scale intelligence）迈出的一个基本且关键的步骤，这是绝对正确的。

Eliza Strickland：我看到过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界。

李飞飞：我认为空间智能是视觉智能的发展方向。如果我们真的想要解决视觉问题，并且将其与行动联系起来，有一个非常简单、显而易见的事实：世界是三维的。我们不是生活在一个平面世界中。我们的物理智能体，无论是机器人还是设备，都将生活在三维世界中。即使是虚拟世界也越来越变得三维化。

如果你和艺术家、游戏开发者、设计师、建筑师、医生交谈，即使他们在虚拟世界中工作，很多内容也是三维的。如果你花一点时间认识到这个简单但深刻的事实，毫无疑问，解决 3D 智能的问题是根本性的。

，时长01:12

Eliza Strickland：我很好奇 World Labs 中的场景是如何保持物体永久性并遵守物理定律的。这感觉像是一个令人兴奋的进步，因为像 Sora 这样的视频生成工具仍然在处理这些事情。

李飞飞：一旦你遵循世界的 3D 特性，很多事情就会变得自然而然。例如，在我们发布的一段视频中，有一个关于篮球的视频。由于场景是 3D 的，篮球会根据重力或其他物理规则正确落地并与环境交互。如果场景只是由 2D 像素生成的，篮球不会有任何物理反应，无法表现出落地或运动的效果。

Eliza Strickland：就像 Sora，球可能会去某个地方，然后消失。在推动这项技术发展的过程中，你面临的最大技术挑战是什么？

李飞飞：没有人解决了这个问题，对吧？这非常非常困难。在一个 demo 中，我们取了一幅梵高的画作，并围绕它生成了整个场景，风格一致：艺术风格、光线，甚至是那个街区会有什么样的建筑。如果你转过身来看到的是摩天大楼，那将完全不可信，对吧？而且它必须是三维的。你必须能够进入其中。所以它不仅仅是像素。

Eliza Strickland：你能说说你用来训练它的数据吗？

李飞飞：非常多。

Eliza Strickland：在算力方面是否存在很多挑战？

李飞飞：这需要大量的算力。是公共部门无法承担的那种计算能力。这也是我需要通过休学术假，以私营部门的方式来做这件事的部分原因。同时，这也是我一直倡导公共部门获得计算资源访问权的部分原因，我自己的经历强调了在足够资源支持下进行创新的重要性。

Eliza Strickland：赋予公共部门权力是一件好事，因为公共部门通常更愿意通过获取知识，为人类谋福利。

李飞飞：知识发现需要资源支持，对吧？在伽利略时代，最好的望远镜是让天文学家观察新天体的望远镜。Hooke 意识到放大镜可以变成显微镜，并发现了细胞。

每当有新的技术工具出现时，它都会帮助人们寻求知识。现在，在人工智能时代，技术工具涉及计算和数据。对于公共部门，我们必须认识到这一点。

Eliza Strickland：你希望联邦政府提供哪些资源？

李飞飞：过去五年来，斯坦福大学 HAI 一直在做这项工作。我们一直在与国会、参议院、白宫、行业和其他大学合作，创建国家人工智能研究资源中心 (NAIRR)。

Eliza Strickland：假设我们能让人工智能系统真正理解 3D 世界，这会给我们带来什么？

李飞飞：它将为人们释放大量创造力和生产力。我希望以更高效的方式设计我的房子。我知道许多医疗用途都涉及理解一个非常特殊的 3D 世界，即人体。我们总是谈论未来人类将创造机器人来帮助我们，但机器人在 3D 世界中导航，它们需要空间智能作为大脑的一部分。

我们还谈论虚拟世界，它将允许人们参观很多地方、学习概念或娱乐。这些都要使用 3D 技术，尤其是混合现实技术，我们称之为 AR [增强现实]。我很想戴着一副眼镜穿过国家公园，它能让我了解树木、道路、云朵的信息。我也想借助空间智能学习不同的技能。

Eliza Strickland：会是什么样的技能？

李飞飞：我举个蹩脚的例子，如果我在高速公路上爆胎了，我该怎么办？现在，我打开一个「如何换轮胎」的视频。但如果我能戴上眼镜，看看我的车发生了什么，然后得到指导，那就太酷了。但这是一个蹩脚的例子。你可以考虑烹饪，你可以考虑雕刻 —— 有趣的事情。

Eliza Strickland：你认为（这个方向）在我们这一代能走多远？

李飞飞：我认为这会是我们有生之年的事，因为技术进步的速度非常快。你已经看到了过去 10 年带来的变化。这肯定预示着接下来会发生什么。

参考内容：

https://spectrum.ieee.org/fei-fei-li-world-labs

https://x.com/drfeifei/status/1867286498086990325

#扩散模型=流匹配？

谷歌DeepMind博客深度详解这种惊人的等价性

扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗？

从表面上看，这两种方法似乎各有侧重：扩散模型专注于通过迭代的方式逐步去除噪声，将数据还原成清晰的样本。

而流匹配则侧重于构建可逆变换系统，目标是学习如何将简单的基础分布精确地映射到真实数据分布。

因为流匹配的公式很简单，并且生成样本的路径很直接，最近越来越受研究者们的欢迎，于是很多人都在问：

「到底是扩散模型好呢？还是流匹配好？」

现在，这个困扰已得到解答。Google DeepMind 的研究团队发现，原来扩散模型和流匹配就像一枚硬币的两面，本质上是等价的 (尤其是在流匹配采用高斯分布作为基础分布时)，只是不同的模型设定会导致不同的网络输出和采样方案。

这无疑是个好消息，意味着这两种框架下的方法可以灵活搭配，发挥组合技了。比如在训练完一个流匹配模型后，不必再局限于传统的确定性采样方法，完全可以引入随机采样策略。

链接：https://diffusionflow.github.io

在这篇博客的开头，作者们写道：「我们的目标是帮助大家能够自如地交替使用这两种方法，同时在调整算法时拥有真正的自由度 —— 方法的名称并不重要，重要的是理解其本质。」

扩散模型与流匹配

扩散模型主要分为前向过程和反向两个阶段。

前向过程用公式表示为：

其中 z_t 是在时间点 t 时的带噪声数据，x 代表原始数据，ε 代表随机噪声，a_t 和 σ_t 是控制噪声添加程度的参数。

若满足

，称为「方差保持」，意味着在每个时间步骤中，噪声的方差保持不变或接近不变。

DDIM 采样器的反向过程用公式表示为：

其中，

而在流匹配中，前向过程视为数据 x 和噪声项 ε 之间的线性插值：

采样

人们普遍认为，这两个框架在生成样本的方式上有所不同：流匹配采样是确定性的，具有直线路径，而扩散模型采样是随机性的，具有曲线路径。下面文章将澄清这一误解：首先关注更简单的确定性采样，稍后再讨论随机情况。

假设你想使用训练好的降噪器模型将随机噪声转换为数据点。可以先回想一下 DDIM 的更新

，有趣的是，重新排列项可以用以下公式来表达，这里涉及几组网络输出和重新参数化：

我们再回到公式（4）中的流匹配更新，和上述方程看起来很相似。如果在最后一行将网络输出设为

，并令

，可以得到

、

这样我们就恢复了流匹配更新！更准确地说，流匹配更新可以被视为重参数化采样常微分方程（ODE）的欧拉积分：

对于 DDIM 采样器而言，普遍存在以下结论：DDIM 采样器对于应用于噪声调度 α_t、σ_t 的线性缩放是不变的，因为缩放不会影响

和

，这对于其他采样器来说并不成立，例如概率流 ODE 的欧拉采样器。

为了验证上述结论，本文展示了使用几种不同的噪声调度得到的结果，每种调度都遵循流匹配调度，并具有不同的缩放因子。如下图，随意调整滑块，在最左侧，缩放因子是 1，这正是流匹配调度，而在最右侧，缩放因子是

。可以观察到 DDIM（以及流匹配采样器）总是给出相同的最终数据样本，无论调度的缩放如何。对于概率流 ODE 的欧拉采样器，缩放确实会产生真正的差异：可以看到路径和最终样本都发生了变化。

看到这里，需要思考一下。人们常说流匹配会产生直线路径，但在上图中，其采样轨迹看起来是弯曲的。

在下面的交互式图表中，我们可以通过滑块更改右侧数据分布的方差。

不过，在像图像这样的真实数据集上找到这样的直线路径要复杂得多。但结论仍然是相同的：最优的积分方法取决于数据分布。

我们可以从确定性采样中得到的两个重要结论：

采样器的等价性：DDIM 与流匹配采样器等价，并且对噪声调度的线性缩放不变。
对直线性的误解：流匹配调度仅在模型预测单个点时才是直线。

训练

对于扩散模型，学习模型是通过最小化加权均方误差（MSE）损失来完成的：

流匹配也符合上述训练目标：

网络应该输出什么

下面总结了文献中提出的几个网络输出，包括扩散模型使用的几个版本和流匹配使用的其中一个版本。

然而，在实践中，模型的输出可能会产生非常大的影响。例如，基于相似的原因，

在低噪声水平下是有问题的，因为

没有信息量，并且错误在

中被放大了。

因此，一种启发式方法是选择一个网络输出，它是

、

的组合，这适用于

和流匹配矢量场

如何选择加权函数

加权函数是损失函数中最重要的部分，它平衡了图像、视频和音频等数据中高频和低频分量的重要性。这一点至关重要，因为这些信号中的某些高频分量是人类无法感知的。如果通过加权情况来查看损失函数，可以得出以下结果：

即公式 (7) 中的条件流匹配目标与扩散模型中常用的设置相同。下面绘制了文献中常用的几个加权函数。

流匹配加权（也称为 v-MSE + 余弦调度加权）会随着 λ 的增加而呈指数下降。该团队在实验中发现了另一个有趣的联系：Stable Diffusion 3 加权 [9]（这是流匹配的一种重新加权版本）与扩散模型中流行的 EDM 加权 [10] 非常相似。

如何选择训练噪声调度？

最后讨论训练噪声调度，因为在以下意义上，它对训练的重要程度最低：

1. 训练损失不会随训练噪声调度变化。具体来说，损失函数可以重写为

它只与端点（λ_max, λ_min）有关，但与中间的调度 λ_t 无关。在实践中，应该选择合适的 λ_max, λ_min，使得两端分别足够接近干净数据和高斯噪声。λ_t 可能仍然会影响训练损失的蒙特卡洛估计量的方差。一些文献中提出了一些启发式方法来在训练过程中自动调整噪声调度。这篇博文有一个很好的总结：https://sander.ai/2024/06/14/noise-schedules.html#adaptive

2. 类似于采样噪声调度，训练噪声调度不会随线性扩展（linear scaling）而变化，因为人们可以轻松地将线性扩展应用于 z_t，并在网络输入处进行 unscaling 以获得等价性。噪声调度的关键定义属性是对数信噪比 λ_t。

3. 人们可以根据不同的启发式方法为训练和采样选择完全不同的噪声调度：对于训练，最好有一个噪声调度来最小化蒙特卡洛估计量的方差；而对于采样，噪声调度与 ODE / SDE 采样轨迹的离散化误差和模型曲率更相关。

总结

下面给出了训练扩散模型 / 流匹配的一些要点：

加权中的等价性：加权函数对于训练很重要，它平衡了感知数据不同频率分量的重要性。流匹配加权与常用的扩散训练加权方法相同。
训练噪声调度的不重要性：噪声调度对训练目标的重要性要小得多，但会影响训练效率。
网络输出的差异：流匹配提出的网络输出是新的，它很好地平衡了

更深入地理解采样器

这一节将更详细地介绍各种不同的采样器。

回流算子

流匹配中的回流（Reflow）运算是使用直线将噪声与数据点连接起来。通过基于噪声运行一个确定性的采样器，可以得到这些 (数据，噪声) 对。然后，可以训练模型，使之可以根据给定噪声直接预测数据，而无需采样。在扩散技术的相关文献中，这同样的方法是最早的蒸馏技术之一。

确定性采样器与随机采样器

此前已经讨论了扩散模型或流匹配的确定性采样器。另一种方法是使用随机采样器，例如 DDPM 采样器。

执行一个从 λ_t 到 λ_t+Δλ 的 DDPM 采样步骤完全等价于执行一个到 λ_t+2Δλ 的 DDIM 采样步骤，然后通过执行前向扩散重新噪声化到 λ_t+Δλ。也就是说，通过前向扩散重新噪声化恰好逆转了 DDIM 所取得的一半进展。为了理解这一点，让我们看一个 2D 示例。从相同的高斯分布混合开始，我们可以执行一个小的 DDIM 采样步骤，左图带有更新反转的符号，右图则是一个小的前向扩散步骤：

对于单个样本而言，这些更新的行为完全不同：反转的 DDIM 更新始终将每个样本推离分布模式，而扩散更新完全是随机的。但是，在汇总所有样本时，更新后得到的分布是相同的。因此，如果执行 DDIM 采样步骤（不反转符号），然后执行前向扩散步骤，则整体分布与更新之前的分布保持不变。

通过重新加噪来撤消的 DDIM 步骤的比例是一个超参数，并且可以自由选择（即不必一定是 DDIM 步骤的一半）。这个超参数在《Elucidating the design space of diffusion-based generative models》中被称为 level of churn，可译为「搅动水平」。有趣的是，将搅动添加到采样器的效果是：减少采样过程早期做出的模型预测对最终样本的影响，并增加对后续预测的权重。如下图所示：

在这里，我们使用余弦噪声调度以及

预测将不同采样器都运行了 100 个采样步骤。忽略非线性相互作用，采样器产生的最终样本可以写成采样过程中做出的预测和高斯噪声 e 的加权和：

这些预测的权重 h_t 显示在 y 轴上，而 x 轴上显示不同的扩散时间 t。DDIM 会在此设置下对

预测赋予相等的权重，而 DDPM 则更注重在采样结束时所做的预测。另请参阅《Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic models》以了解

中这些权重的解析表达式。

SDE 和 ODE 视角

前面，我们已经观察到扩散模型和流匹配算法之间的等价性。下面将使用 ODE 和 SDE 来形式化地描述正向过程和采样的等价性，以实现理论上的完整性。

扩散模型

扩散模型的前向过程涉及到随时间推移逐渐破坏一个数据，而该过程可使用以下随机微分方程（SDE）来描述：

其中 dz 是无穷小的高斯（即布朗运动）。f_t 和 g_t 决定了噪声调度。其生成过程由前向过程的逆过程给出，其公式为：

其中 ∇log p_t 是前向过程的分数。

请注意，这里引入了一个附加参数 η_t，它控制的是推理时的随机性。这与之前介绍的搅动（churn）参数有关。当离散化后向过程时，如果 η_t=0，则是恢复 DDIM；如果 η_t=1，则是恢复 DDPM。

流匹配

流匹配中 x 和 ε 之间的插值可以用以下常微分方程（ODE）描述：

假设该插值为

其生成过程只是在时间上反转这个 ODE，并将 u_t 替换为其对 z_t 的条件期望。这是随机插值（stochastic interpolants）的一个特例 —— 在这种情况下，它可以泛化成 SDE：

其中 ε_t 控制着推理时的随机性。

两个框架的等价性

这两个框架都分别由三个超参数定义：扩散的三个参数是 f_t、g_t、η_t，而流匹配的三个参数是 α_t、σ_t、ε_t。通过从一组超参数推导得到另一组超参数，可以显示这两组超参数的等价性。从扩散到流匹配：

从流匹配到扩散：

总之，除了训练考虑和采样器选择之外，扩散和高斯流匹配没有根本区别。

结语

读到这里，想必你已经理解了扩散模型和高斯流匹配的等价性。不过，文中重点介绍的是流匹配为该领域带来的两个新模型规范：

网络输出：流匹配提出了一种网络输出的向量场参数化方案，并且其不同于扩散文献中使用的方案。当使用高阶采样器时，网络输出可能会有所不同。它也可能影响训练动态。
采样噪声调度：流匹配利用了简单的采样噪声调度 α_t = 1-t 和 σ_t = t，并且更新规则与 DDIM 相同。

该团队最后表示：「如果能通过实证方式研究这两个模型规范在不同的真实应用中的重要性，那一定会很有趣。我们将此留给了未来的工作。」

#Insight-V

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

本文的主要作者来自南洋理工大学 S-Lab、腾讯公司和清华大学智能视觉实验室。本文的共同第一作者为南洋理工大学博士生董宇昊和清华大学自动化系博士生刘祖炎，主要研究方向为多模态模型。本文的通讯作者为南洋理工大学助理教授刘子纬和腾讯高级研究员饶永铭。

大语言模型（LLMs）通过更多的推理展现出了更强的能力和可靠性，从思维链提示发展到了 OpenAI-o1 这样具有较强推理能力的模型。尽管人们为改进语言模型的推理做出了种种努力，但在多模态视觉语言任务中，高质量的长链推理数据以及优化的训练流程仍未得到充分的探索。

为了解决上述问题，来自南洋理工大学、腾讯、清华大学的研究者们提出一种能够进行长链视觉推理的多模态模型 Insight-V。Insight-V 提供了 1）针对复杂的多模态任务，可扩展地生成冗长且可靠的推理数据；2）建立有效的训练流程，以增强多模态语言模型的推理能力。

Insight-V 的核心创新点包括：1）一个用于生成长链、高质量推理数据的可扩展的数据生成流程；2）一个将视觉推理任务分解为推理和总结的多智能体系统；3）一个用于增强视觉推理能力的两阶段训练流程。这些设计赋予了 Insight-V 较强的视觉推理能力。

论文：https://arxiv.org/abs/2411.14432

代码：https://github.com/dongyh20/Insight-V

模型：https://huggingface.co/THUdyh/Insight-V-Reason

1. 介绍

现有的研究通过长链推理来提升语言模型（LLMs）的推理能力，已经取得了显著进展，这在很大程度上得益于结构化、高质量数据的可获取性以及成熟的训练流程。相比之下，多模态语言模型（MLLMs）进行长链视觉推理仍然是一项重大挑战，主要原因是缺乏大规模、高质量的数据集以及高效有效的训练策略。与纯文本数据相比，视觉推理数据不仅收集成本更高，而且由于缺乏有效的数据生成流程，还需要大量人力来进行详细标注和验证。此外，当前的多模态语言模型无法有效利用视觉线索进行精确的视觉推理，需要一种有效的训练程序，使多模态语言模型在保持清晰视觉感知的同时能够进行详细推理。

图 1：Insight-V 方法展示。

为了解决以上挑战，本文提出了一个视觉推理的多模态系统 Insight-V，能够实现结构化的长链视觉推理。如图 1 所示，Insight-V 由两个智能体组成，一个专门负责推理，另一个负责总结，这使得它在各类视觉推理基准测试中的性能有了显著提升。

Insight-V 的主要贡献包括：

一个用于生成长链、高质量推理数据的可扩展的数据生成流程。通过利用已有的模型构建数据生成流程，从而提供丰富的，可扩展的视觉推理训练数据。
一个将视觉推理任务分解为推理和总结的多智能体系统。通过将视觉任务分解为推理和总结，并利用不同的模型来分别解决不同的任务，来提升视觉推理能力。
一个用于增强视觉推理能力的两阶段训练流程，从而使 Insight-V 能够在视觉推理评测集上取得优异的性能。

我们提供了 Insight-V 的模型权重，在视觉推理任务上表现出色，在 7B 规模下取得了综合最好的结果，在部分数据集超过最先进的综合模型和商业模型，为多模态视觉推理的发展提供了一个值得探索的方向。

2. 方法概览

结构化推理数据构建

图 2：结构化数据构建。

现有的研究已经探索了将推理能力融入多模态大型语言模型（MLLMs）中。然而，训练 MLLMs 具备强大的推理技能仍然是一个相当大的挑战，尤其是由于数据方面的限制。为了解决这一问题，我们介绍了提出的数据生成流程，该流程旨在通过渐进式生成过程和多粒度评估来生成高质量的长链推理数据。如图 2 所示，这种可扩展的方法使我们能够生成高质量的数据，从而有效地提升模型的推理能力。

渐进式长链推理数据生成。我们通过调用能力强大的多模态综合模型，来收集单步推理结果。在每一步推理结束之后，模型根据历史的推理结果来生成针对下一轮推理的动作，如果动作为‘继续推理’，下一步模型继续执行单步推理；如果动作为‘总结’，下一步模型根据历史推理内容总结得出答案。

多粒度评估。我们通过两个步骤来对生成的推理数据进行评估。首先，我们直接使用真实答案来对推理数据进行过滤，过滤掉最终答案错误的数据。之后，我们使用一个推理步骤打分模型，来针对推理数据的质量进行打分，将推理数据分为不同质量的子集，以供最后训练数据集的构建。

模型设计

推理模型。我们提出了一种专门的推理智能体，其旨在针对输入查询生成一个详细的、逐步推进的推理过程。我们通过为每个问题选取得分最高的推理路径来构建推理数据集。在基于该数据集进行训练之后，模型转变为一个具有更强推理能力的推理智能体，使其能够生成更详细、结构化的推理过程。

总结模型。我们开发了一种对推理路径中的不准确之处具有较强适应性的总结模型，该模型可根据需要有选择性地纳入或忽略某些元素。这种方法在最大程度发挥推理模型效能的同时，将引入误导性信息的风险降至最低。我们利用所收集的数据集来完成总结任务，该数据集由两类数据组成：具有最优推理过程的数据和具有有缺陷推理过程的数据。此外，为了保留原有的多模态能力，我们用标准问答数据对数据集进行补充，以维持总结智能体在直接问答方面的性能。

图 3：训练流程。

训练策略

Insight-V 的训练策略简单直接。我们从一个已经训练好的多模态模型出发，利用这个模型的权重来初始化 Insight-V 当中的两个模型。

第一阶段，我们进行多智能体系统的监督微调。对于推理模型，我们利用精心整理的推理数据集来培养逐步推理的能力。对于总结模型，我们按照上文所述构建了一个数据集，并从用于基础模型的数据集中抽取了大约一百万对通用的图文组合，以保留其原有的视觉感知能力。

在第二阶段，我们利用强化学习算法来进一步提升模型的推理能力。我们使用迭代式直接偏好优化（Iterative DPO）。通过进行多轮直接偏好优化（DPO）训练和抽样，这种方法能使该模型在训练期间更好地模拟在线环境，从而进一步提升其性能。

3. 实验结果

视觉推理

我们在 7 个基准测试上开展了评估实验，涵盖了通用推理和特定任务推理评估。当应用于 LLaVA-NeXT 和我们的基线模型时，Insight-V 展现出了显著的有效性和通用性，大幅超越了其他最先进的大型语言模型（MLLMs）。在 MMStar 数据集中，Oryx 取得 61.5% 的平均准确率。在 MME 数据集上取得了 2312 的总分，并且在 MME 的感知和认知子任务上都取得了先进的结果。针对 7 个数据集的平均结果，Insight-V 表现出色，超越了一系列先进的模型。

基础视觉感知

为了更进一步测试 Insight-V 的通用性，我们在一些侧重评估模型基础视觉感知能力的数据集上进行了测试。结果表明，InsightV 在不影响一般视觉感知能力的情况下提升了推理能力，甚至在对感知能力要求更高的基准测试上也实现了性能提升。当 Insight-V 与 LLaVA-NeXT 模型结合时，在 TextVQA，DocVQA，OCRBench，AI2D 等测试集上都有显著的性能提升，当与我们构建的更强的基础模型结合时，在这些 benchmark 上也表现出了更好的结果。

分析实验

多智能体系统的有效性。针对 Insight-V 的设计，我们与其他可能的设计选择进行了对比，包括直接进行微调、多轮对话监督、只训练总结模型。结果显示，多智能体设计的表现优于其他配置，突出了推理和总结分解的关键作用。

数据 Scaling Law 实验。我们研究了数据扩展对于 Insight-V 的影响，尤其是对于推理模型的效果。结果表明，随着推理模型训练数据的扩展，推理模型的性能得到了显著的提升。推理模型得益于数据扩展，能为总结模型提供更有价值的见解。

强化学习算法的效果。我们探究了不同的强化学习策略对于推理模型效果的影响。我们对比了使用 RLAIF 数据进行训练，直接进行 DPO 以及 Insight-V 的多轮迭代式 DPO。结果显示，相比其他方法，迭代直接偏好优化（Iterative DPO）逐步增强了模型的推理能力，从而带来了性能的提升。

4. 案例分析

我们对 Insight-V 与思维链（Chain-of-Thought）以及通过直接监督微调学习进行了定性比较。对于 Insight-V 系统而言，其推理智能体能够提供一个更加连贯且结构化的推理过程，从而引导总结智能体得出正确答案；然而，其他方法在面对复杂推理任务时会显得吃力，无法解决这类具有挑战性的问题。

5. 总结

在本文中，我们介绍了 Insight-V，这是一种新颖的系统，它将用于长链、高质量推理数据的可扩展数据生成系统与有效的多智能体训练系统相结合，以增强多模态语言模型（MLLMs）的推理能力。通过开发该系统，我们提供了一种旨在提高推理性能的可扩展模型训练方法。我们在各种基准测试中的广泛评估证明了我们这种方法的有效性，为赋予多模态语言模型更强的推理能力铺平了道路。

#NeurIPS神仙打架

李飞飞180页PPT谈视觉智能，Bengio同OpenAI员工吵架，何恺明谈AI宿命论

我们无法忽视世界是三维的，解决三维智能是根本性的。

李飞飞最新采访来了，继续延伸她在NeurIPS有关视觉智能的话题。

她表示，解决空间智能问题是迈向全面智能化的基础和关键一步。

不过从现场传出的NeurIPS演讲PPT中竟然有写：AI将取代人类？！

这究竟是怎么一回事？！

有网友表示，当她看到这页时，她的表情be like：

有一说一，今年NeurIPS好不热闹，大佬们聚在一起，就是容易制造各种话题（Doge）。

比如，疑似Bengio和OpenAI o1的人吵起来了。

何恺明竟然探讨起了AI宿命论？？？

来来来，来看看一个吃瓜汇总。

李飞飞180页PPT谈视觉智能

今年李飞飞在NeurIPS演讲的话题是《从看到到做：攀登视觉智能的阶梯》。

她自曝准备了180页ppt，从各种路透图来看，确实是干货满满。

而在最新IEEE Spectrum采访中，她进一步揭示了相关细节。（该采访是在NeurIPS演讲前进行）

采访实录：

Q：为什么演讲题目是“攀登视觉智能的阶梯（Ascending the Ladder of Visual Intelligence）”？

李飞飞：我认为，直觉告诉我们，智能具有不同的复杂度和精密度。在演讲中，我想传达这样一种感觉：在过去的几十年里，尤其是过去十多年的深度学习革命中，我们在视觉智能方面所取得的成就令人惊叹。我们越来越擅长使用这项技术。我还受到了 Judea Pearl 的“因果关系阶梯”的启发。（收录于2020年出版的《the Book of Why》）

（这里插一嘴，Judea Pearl本人还特意纠正了一下，他表示因果关系阶梯所定义的等级是第一定律的数学结果，而不是一种判断性的建构。

李飞飞：演讲还有一个副标题，即“从看到到做（From Seeing to Doing）”。这是人们没有足够重视的一点：“看 ”都与互动和 “做 ”密切相关，无论是对于动物，还是AI Agents来说都是如此。这与语言是不同的。语言从根本上说是一种交流工具，用来传递思想。在我看来，这些都是非常互补但同样深刻的智能模式。

Q：你的意思是说，我们会对某些景象做出本能的反应？

李飞飞：我说的不仅仅是本能。如果你看一下感知力的进化和动物智力的进化，就会发现这两者之间有着深刻的联系。每当我们能够从环境中获得更多信息时，进化的力量就会推动能力和智力的发展。如果你不能感知环境，你与世界的关系就会非常被动；你是吃还是被吃，都是非常被动的行为。但是，一旦你能够通过感知从环境中获取线索，进化的压力就会真正增强，从而推动智力向前发展。

Q：你认为这就是我们创造更深入的机器智能的方式吗？让机器感知更多的环境？

李飞飞：我不知道 “深度 ”是不是我想用的形容词。我认为我们正在创造更多的能力。我认为它正变得越来越复杂，越来越有能力。我认为，解决空间智能问题是迈向全面智能化的基础和关键一步，这是绝对正确的。

Q：我看过世界实验室的演示。你为什么要研究空间智能并构建这些三维世界？

李飞飞：我认为空间智能是视觉智能的发展方向。如果我们真的要破解视觉问题，并将其与做事联系起来，那么有一个极其简单、一目了然的事实：世界是三维的。我们生活的世界不是平面的。我们的物理Agent，无论是机器人还是设备，都将生活在三维世界中。就连虚拟世界也变得越来越3D化。如果你与艺术家、游戏开发者、设计师、建筑师、医生交谈，即使他们是在虚拟世界中工作，其中大部分也是三维的。如果你能花点时间认识到这个简单而深刻的事实，那么毫无疑问，解决3D智能问题就是根本所在。

一旦你尊重了世界的三维性，很多事情就自然而然地发生了。例如，在我们发布在社交媒体上的一个视频中，篮球被投放到一个场景中。因为它是三维的，所以你可以拥有这种能力。如果场景只是 2D 生成的像素，篮球将无处可去。

Q：或者，就像Sora中那样，它可能会去到某个地方，但随后就消失了。在你尝试推进这项技术的过程中，最大的技术挑战是什么？

李飞飞：没有人解决过这个问题，对吧？这非常非常难。在世界实验室的演示视频中，你可以看到我们将一幅梵高的画作，以一致的风格生成了它周围的整个场景：艺术风格、灯光，甚至是那个社区会有什么样的建筑。如果你转过身去，它就变成了摩天大楼，那就完全没有说服力了，对吗？它必须是 3D 的。你必须进入其中。所以它不仅仅是像素。

Q：你能说说你用来训练它的数据吗？

李飞飞：很多。

Q：你们在计算负担方面遇到过技术挑战吗？

李飞飞：计算量很大。这是公共部门负担不起的计算量。这也是我很高兴能休假，以私营部门的方式来做这件事的部分原因。我的亲身经历强调了在获得充足资源的情况下进行创新的重要性。

知识的发现需要资源的支持，对吧？在伽利略时代，是最好的望远镜让天文学家观测到了新的天体。是虎克意识到放大镜可以变成显微镜，发现了细胞。每一次新技术工具的出现，都有助于知识的探寻。而现在，在人工智能时代，技术工具涉及计算和数据。我们必须认识到这一点。

Q：假设我们能让人工智能系统真正理解三维世界，这会给我们带来什么？

李飞飞：它将为人们释放大量的创造力和生产力。我希望能以更高效的方式设计我的房子。我知道，许多医疗用途都涉及到理解一个非常特殊的三维世界，那就是人体。我们总在谈论未来人类将创造机器人来帮助我们，但机器人是在三维世界中航行的，它们需要空间智能作为大脑的一部分。我们也在谈论虚拟世界，它能让人们参观景点、学习概念或娱乐。这些虚拟世界使用三维技术，尤其是混合技术，也就是我们所说的 AR（增强现实技术）。我很想戴着一副眼镜在国家公园里漫步，它能为我提供有关树木、道路和云彩的信息。我还想通过空间智能学习不同的技能。

Q：什么样的技能？

李飞飞：我举个蹩脚的例子，如果我在高速公路上爆胎了，我该怎么办？现在，我打开了一个 “如何换轮胎 ”的视频。但如果我能戴上眼镜，看到我的车发生了什么，然后在指导下完成这个过程，那就很酷了。但这只是个蹩脚的例子。你可以考虑烹饪，可以考虑雕刻—有趣的事情。

Q：你认为我们在有生之年能在这方面取得多大进展？

李飞飞：哦，我认为这将在我们有生之年实现，因为科技进步的步伐真的很快。你已经看到了过去 10 年所带来的变化。这无疑预示着下一步会发生什么。

今年NeurIPS好热闹

NeurIPS整个会议期间，可以说是好不热闹。

比如，Bengio和OpenAI的人吵起来了。

据在场的人爆料，在今年因果关系小组讨论中，OpenAI o1的主创表示，我们最终应该训练Agent来优化对世界的理解，来解决科学问题。

Bengio还有一位谷歌AGI安全研究员Tom Everitt则指出这样做很可怕！他们表示不应该制造这样强大的Agent，还有其他方法可以增强人类的能力，并进行科学研究，比如让模型学习因果图。

而就在刚才，Bengio还进一步回应了，再次强调了AI Agent潜在的风险。

如果我们不解决调整和控制问题，随着我们赋予系统越来越多的代理权，人工智能的风险将继续增长。在此之前，我们需要在科学和政策两方面取得重大进展。

而何恺明竟然探讨起了AI宿命论？！

据热心网友们的爆料，他是在被问到AI属于发明还是发现的时候。

他表示这要看你相不相信宿命论了。（Doge）

除此之外，他在演讲中探讨了AI未来的发展：Super-human AI？

据小红书网友爆料，他提到一个有意思的观点，他将人类比作大模型的传感器：

人类感知，理解，压缩了世界的所有的知识并用文本和语言记录下来。大语言模型吸取，学习这些内容并将其建模为一个强大而丰富的空间。但是就像你只用RGB观测宇宙一样，总会有紫外，红外这样看不到，看不清的东西。

好了，NeurIPS期间还有没有发生什么有意思的事情，欢迎小伙伴们跟我们爆料。

参考链接：
[1]https://spectrum.ieee.org/fei-fei-li-world-labs
[2]https://x.com/connoraxiotes/status/1866921924703498412
[3]https://x.com/kyliebytes/status/1866987524805234785
[4]https://www.xiaohongshu.com/explore/6759be860000000001029429
[5]http://xhslink.com/a/IFIoiN1IoRy1
[6]https://x.com/yoshua_bengio/status/1867274312941523193?s=46&t=iTysI4vQLQqCNJjSmBODPw

#预训练将结束，数据压榨到头了

Ilya Sutskever在NeurIPS炸裂宣判

「推理是不可预测的，所以我们必须从令人难以置信的，不可预测的 AI 系统开始。」

Ilya 终于现身了，而且一上来就有惊人之语。

本周五，OpenAI 的前首席科学家 Ilya Sutskever 在全球 AI 顶会上表示：「我们能获得的数据已经到头，不会再有更多了。」

OpenAI 的联合创始人兼前首席科学家 Ilya Sutskever 今年 5 月离开公司，创办了自己的人工智能实验室 Safe Superintelligence，成为头条新闻。自离开 OpenAI 后他一直远离媒体，但本周五在温哥华举行的神经信息处理系统会议 NeurIPS 2024 上，他罕见地公开露面了。

「我们所熟悉的预训练无疑会结束，」Sutskever 在台上说。

在人工智能领域里，BERT 、GPT 等大规模预训练模型（Pre-Training Model）近年来取得了巨大成功，已经成为技术进步道路上的一个里程碑。

由于复杂的预训练目标和巨大的模型参数，大规模预训练可以有效地从大量标记和未标记的数据中获取知识。通过将知识存储到巨大的参数中并对特定任务进行微调，巨大参数中隐式编码的丰富知识可以使各种下游任务受益。现在 AI 社区的共识是采用预训练作为下游任务的主干，而不是从头开始学习模型。

然而，在他的 NeurIPS 演讲中，Ilya Sutskever 表示，尽管现有数据仍能推动人工智能的发展，但这个行业里称得上可用的新数据上已经接近枯竭。他指出，这一趋势最终将迫使行业改变当前的模型训练方式。

Sutskever 将这一状况比作化石燃料的消耗：正如石油是有限资源一样，互联网中由人类生成的内容也是有限的。

「我们已经达到了数据的峰值，未来不会再有更多数据，」Sutskever 说道。「我们必须利用现有的数据，因为互联网只有一个。」

Sutskever 预测，下一代模型将会「以真正的方式表现出自主性」。另一方面，智能体（Agent）已成为 AI 领域的热词。

除了具有「自主性」，他还提到未来的系统将具备推理能力。与当今的 AI 主要依赖的模式匹配（基于模型以前见过的内容）不同，未来的 AI 系统将能够以类似于「思考」的方式逐步解决问题。

Sutskever 表示，系统的推理能力越强，其行为就越「不可预测」。他将「真正具备推理能力的系统」的不可预测性与高级 AI 在国际象棋中的表现进行了比较 ——「即使是最优秀的人类棋手也无法预测它们的动作。」

他说：「这些系统将能够从有限的数据中理解事物，并且不会感到困惑。」

在演讲中，他将 AI 系统的 Scaling 与进化生物学进行了比较，并引用了研究中不同物种之间的大脑与体重的比例关系。他指出，大多数哺乳动物遵循一种特定的 Scaling 模式，而人类科（人类祖先）的脑体比在对数尺度上展现出截然不同的增长趋势。

Sutskever 提议，就像进化为人类科大脑找到了一种新的 Scaling 模式一样，AI 可能也会超越现有的预训练方法，发现全新的扩展路径。

以下视频来源于

MLSys2024

，时长24:36

以下是 Ilya Sutskever 的演讲全文：

我要感谢大会组织者为这个奖项选择了一篇论文（Ilya Sutskever 等人的 Seq2Seq 论文入选了 NeurIPS 2024 时间检验奖）。太好了。我也想感谢我不可思议的合著者 Oriol Vinyals 和 Quoc V. Le，他们刚才就站在你们面前。

你这里有一张图片，一张截图。10 年前在蒙特利尔的 NIPS 2014 也有类似的演讲。那是一个更加纯真的时代。在这里，我们出现在照片中。顺便说一下，那是上次，下面这张是这次。

现在我们有了更多的经验，希望现在更聪明一点了。但是在这里，我想谈一下这项工作本身，也许还想做一个 10 年的回顾，因为这项工作中的很多事情是正确的，但有些则不太正确。我们可以回顾它们，看看发生了什么，以及它是如何把我们引向今天的。

所以让我们开始谈谈我们所做的事情。我们要做的第一件事就是展示 10 年前同一个演讲的幻灯片。总结起来就是三个要点。一个基于文本训练的自回归模型，它是一个大型神经网络，它是一个大型数据集，就是这样。

现在让我们再深入一些细节。

这是 10 年前的一张幻灯片，看起来不错，「深度学习假说」。我们在这里说的是，如果你有一个具有 10 层的大型神经网络，但它可以在几分之一秒内完成人类可以做的任何事情。

为什么我们要强调「人类可以在几分之一秒内完成的事情」？为什么是这件事？

好吧，如果你相信深度学习的教条，人工神经元和生物神经元是相似的，或者至少不是太不同，并且你相信三个真正的神经元是缓慢的，那么人类可以快速处理任何事情。我甚至指的是假如全世界只有一个人。如果全世界有一个人可以在几分之一秒内完成某些任务，那么 10 层神经网络也可以做到，对吧？

接下来，你只需将它们的连接嵌入到一个人工神经网络中。

这就是动机。任何人类可以在几分之一秒内完成的事情，那么 10 层神经网络也可以做到。

我们专注于 10 层神经网络，因为这是当年我们所知道的训练方式，如果你能以某种方式超越这个层数，那么你可以做更多的事情。但在那时，我们只能做 10 层，这就是为什么我们强调人类可以在几分之一秒内做的任何事情。

当年的另一张幻灯片说明了我们的主要思想，你可能能够识别两件事情，或者至少一件事情，你可能能够识别出这里正在发生自回归的事情。

它到底在说什么？这张幻灯片到底说了什么？这张幻灯片说，如果你有一个自回归模型，并且它预测下一个 token 足够好，那么它实际上会抓取、捕捉并掌握接下来出现的任何序列的正确分布。

这是一个相对较新的东西，它并不是第一个自回归网络，但我认为这是第一个自动回归神经网络。我们真正相信，如果你训练得很好，那么你就会得到你想要的任何东西。在我们的案例中，是现在看来很保守，当时看来非常大胆的机器翻译任务。现在我将向你们展示一些你们中许多人可能从未见过的古老历史，它被称为 LSTM。

对于那些不熟悉的人来说，LSTM 是可怜的深度学习研究者们在 Transformer 之前所做的事情。

它基本上是 ResNet，但旋转 90 度。所以这是一个 LSTM。LSTM 就像是一个稍微复杂的 ResNet。你可以看到 integrator，它现在被称为 residual stream。但是你有一些乘法正在进行中。这有点复杂，但这就是我们所做的。这是一个旋转 90 度的 ResNet。

那个老演讲中我想强调的另一个重点是我们使用了并行化，但不仅仅是并行化。

我们使用了流水线，每层神经网络分配一块 GPU。正如我们现在所知，流水线策略并不明智，但我们当时并不聪明。所以我们使用它，使用 8 块 GPU 获得了 3.5 倍的速度。

最后的结论，那是最重要的一张幻灯片。它阐明了可能是 Scaling Laws 的开始。如果你有一个非常大的数据集并且你训练了一个非常大的神经网络，那么成功就是有保证的。人们可以争辩说，如果一个人是慷慨的，这确实是正在发生的事情。

现在，我想提另一个想法，我认为这个想法真正经得起时间的考验。这是深度学习本身的核心思想。这就是联结主义的思想。这个想法是，如果你相信人工神经元有点像生物神经元。如果你相信其中一个有点像另一个，然后它让你有信心相信超大规模神经网络。它们不需要真的是人类大脑规模，它们可能会小一点，但你可以配置它们来完成我们所做的几乎所有事情。

但这与人类仍然存在差异，因为人类大脑会弄清楚如何重新配置自己，我们正在使用我们拥有的最好的学习算法，这需要与参数一样多的数据点。人类在这方面做得更好。

所有这些都导向了，我可以说是，预训练时代。

进而就是我们所说的 GPT-2 模型、GPT-3 模型，Scaling Laws。我想特别提到我的前合作者 Alec Radford，还有 Jared Kaplan 和 Dario Amodei，是他们的努力实现了这些工作。

这就是预训练的时代，这就是所有进步的驱动力，我们今天看到的所有进步，超大神经网络，在巨大的数据集上训练的超大神经网络。

但我们所知道的预训练路线无疑会结束。为什么会结束？因为计算机通过更好的硬件、更好的算法和逻辑集群不断增长，所有这些事情都在不断增加你的计算能力，而数据没有增长，因为我们只有一个互联网。

你甚至可以说数据是 AI 的化石燃料。它就像是以某种方式创建的，现在我们使用它，我们已经实现了数据的最大化利用，不能再更好了。我们想办法必须处理现在拥有的数据。我仍然会努力，这仍然让我们走得很远，但问题在于，只有一个互联网。

所以在这里，我会大胆第推测一下接下来会发生什么。

实际上，我都不需要推测，因为许多人也在猜测，我会提到他们的猜测。

你可能听过「智能体 Agent」这个短语，这很常见，我相信最终会发生一些事情，人们觉得智能体是未来。
更具体地说，但也有些模糊的合成数据。但合成数据是什么意思？弄清楚这一点是一个巨大的挑战，我相信不同的人在那里有各种有趣的进展。
还有推理时间计算，或者可能是最近（OpenAI 的）o1，o1 模型最生动地展示了人们在预训练后试图弄清楚该做什么事情。

这些都是非常好的事情。

我想提到生物学中的另一个例子，我认为这真的很酷。很多年前在这个会议上我也看到了一个演讲，有人展示了这张图，其中显示了哺乳动物身体大小和大脑大小之间的关系。在这种情况下，它是大规模的。那个演讲，我清楚地记得，他们说，在生物学中，一切都很混乱，但在这里，你有一个罕见的例子，动物身体的大小与它们的大脑之间存在非常紧密的关系。

出于偶然，我对这张图产生了好奇。

所以我去谷歌以图搜图了一下。

这张图片里，列出了多种哺乳动物，也有非灵长类动物，但大体一样，还有原始人。据我所知，原始人在进化过程中，像尼安德特人一样是人类的近亲。比如「能人」。有趣的是，他们的大脑与身体比例指数的斜率不同。很有意思。

这意味着有一个案例，有一个生物学找出某种不同尺度的例子。显然，有些事情是不同的。顺便说一下，我想强调一下这个 x 轴是对数刻度。这是 100、1000、10000、100000，同样以克为单位，1 克、10 克、100 克、一千克。所以事情有可能不同。

我们正在做的事情，到目前为止我们一直在做扩展的事，实际上我们发现如何扩展成了第一要务。毫无疑问在这个领域，每个在这里工作的人都会想出该做什么。但我想在这里谈谈。我想花几分钟的时间来对长期进行预测，我们所有人都要面临这样的事，对不对？

我们正在取得的所有进展，是惊人的进步。我的意思是，10 年前在这个领域工作的人，你们还记得一切都是多么无能为力。如果你是在过去两年里加入了深度学习这个领域，你或许都无法感同身受。

我想稍微谈谈「超级智能」，因为这显然是这个领域的发展方向，是这个领域努力构建的东西。

尽管语言模型现在拥有令人难以置信的能力，但它们也有点不可靠。目前还不清楚如何调和这一点，但最终，迟早会实现目标：这些系统将以真正的方式成为智能体。现在，这些系统并不是强大的有意义的感知智能体，实际上它们刚刚开始会推理。顺便说一句，一个系统推理的越多，它就变得越不可预测。

我们已经习惯所有深度学习都是非常可预测的。因为如果你一直在研究复制人类直觉，回到 0.1 秒的反应时间，我们的大脑会进行什么样的处理？这就是直觉，我们赋予了 AIS 一些这种直觉。

但是推理，你看到了一些早期的迹象：推理是不可预测的。例如，国际象棋对于最好的人类棋手来说都是不可预测的。因此，我们将不得不处理非常不可预测的 AI 系统。它们将从有限的数据中理解事物，并且不会感到困惑。

所有这些都是非常大的限制。顺便说一句，我没有说怎么做，也没有说什么时候会以及什么时候所有这些事情都会与「自我意识」一起发生，因为为什么「自我意识」不能是有用的呢？我们自己也是我们自己世界模型的一部分。

当所有这些东西结合在一起时，我们将拥有与今天存在的质量和属性完全不同的系统。当然，它们将拥有令人难以置信和惊人的能力。但是像这样的系统所带来的问题，我猜想它将非常与众不同。

我会说，预测未来肯定也是不可能的。真的，各种各样的事情都是可能发生的。谢谢大家。

Neurlps 大会上一阵掌声过后，Ilya 回答了几位提问者简短的问题。

提问：在 2024 年，请问您认为是否还有其他与人类认知相关的生物结构值得以类似的方式进行探索，或者还有您感兴趣的领域吗？

Ilya：我会这样回答这个问题：如果你或者某个人对某个具体问题有独到的见解，比如 “嘿，我们明显忽略了大脑在做某些事情，而我们并没有做到”，并且这是可以实现的，那么他们就应该去深入研究这个方向。我个人没有这样的见解。当然，这也取决于你关注的研究抽象层级。

很多人都渴望开发受生物启发的人工智能。从某种程度上来说，可以认为由生物启发的 AI 已经取得了巨大的成功，毕竟整个深度学习的基础就是由生物启发的 AI。但另一方面，这种生物启发其实非常、非常有限。基本上只是 “让我们使用神经元”—— 这就是生物启发的全部内涵。更详细、更深层次的生物启发却很难实现，但我不会排除这种可能性。我认为，如果有人拥有特别的洞察力，能够发现某些新的角度，这或许会非常有价值。

提问：我想提问一个关于自动更正的问题。

您提到推理可能是未来模型的核心发展方向之一，也可能是一个差异化的特点。在一些海报展示环节中，我们看到当前模型存在 “幻觉” 现象。我们目前分析模型是否出现幻觉的方法（如果我理解有误请您纠正，您才是这方面的专家）主要是基于统计分析，例如通过某些标准差的偏离来判断是否偏离均值。未来，您是否认为如果模型具备了推理能力，它能够像 “自动更正”（autocorrect）一样自我纠正，从而成为未来模型的一个核心功能？这样模型就不会出现那么多的幻觉，因为它能识别出自己生成幻觉内容的情况。这可能是一个比较复杂的问题，但您认为未来的模型是否能够通过推理理解并发现幻觉的发生？

Ilya：答案：是的。

我认为你描述的这种情况是非常有可能的。尽管我不确定，但我建议你去查证一下，这种情况可能已经在一些早期的推理模型中出现了。但从长期来看，为什么不可能呢？

提问：我的意思是，这就像微软 Word 里的自动更正（autocorrect）功能一样，它是一个核心功能。

Ilya：是的，我只是觉得称之为 “自动更正” 其实有点低估了它的意义。当你提到 “自动更正” 时，会让人联想到一些相对简单的功能，但这个概念远远超越了自动更正。不过，总的来说，答案是肯定的。

提问：谢谢。

接下来是第二位提问者。

提问：嗨，Ilya。我很喜欢那个神秘留白的结局。人工智能们是否会取代我们，还是说它们比我们更优越？它们是否需要权利？这是一个全新的物种。智人（Homo sapiens）孕育了这种智能，我觉得强化学习那边的人可能认为我们需要为这些存在争取权利。

我有一个与此无关的问题：我们如何创造正确的激励机制，让人类以一种方式来创造它们，使它们能享有与我们智人相同的自由？

Ilya：我觉得这些问题在某种意义上是人们应该更多思考和反思的。但对于你提到的关于我们应该创造什么样的激励机制的问题，我觉得我无法自信地回答这样的问题。这听起来像是在讨论创建某种自上而下的结构或治理模式，但对此我确实不太确定。

接下来是最后一位提问者。

提问：嗨，Ilya，谢谢你的精彩演讲。我来自多伦多大学。感谢你所做的一切工作。我想请教一下，你认为 LLMs 是否能够在分布外进行多跳推理的泛化？

Ilya：好的，这个问题假设答案是 “是” 或 “否”，但实际上不应该这样回答。因为我们需要先弄清楚：分布外泛化到底是什么意思？什么是分布内？什么是分布外？

因为这是一次关于 “时间检验” 的演讲。我想说，在很久很久以前，人们在还未使用深度学习时，是用字符串匹配和 n-grams 来做机器翻译的。当时人们依靠的是统计短语表。你能想象吗？这些方法的代码复杂度达到了数万行，真的是难以想象的复杂。而在那个时候，泛化的定义是：翻译结果是否和数据集中的短语表述字面上不完全相同。

现在我们可能会说：“我的模型在数学竞赛中取得了很高的分数，但也许这些数学题的某些想法曾经在互联网上的某个论坛中被讨论过，因此模型可能只是记住了这些内容。” 好吧，你可以说这可能是分布内的，或者可能是记忆化的结果。但我认为，我们对泛化的标准确实已经大幅提高 —— 甚至可以说是显著地、不可想象地提高了。

所以，我的答案是：在某种程度上，模型的泛化能力可能还远不及人类。我确实认为人类在泛化方面要优秀得多。但与此同时，AI 模型也确实在某种程度上能够进行分布外泛化。我希望这个答案对你来说算是有用的，尽管它听起来有些赘述了。

提问：谢谢。

参考内容：

https://www.theverge.com/2024/12/13/24320811/what-ilya-sutskever-sees-openai-model-data-training

#无人机：不是我想长腿

《Nature》论文说这样更省力

「这世界上有一种鸟是没有脚的，它只能一直飞，飞累了就睡在风里，这种鸟一辈子只能下地一次......」

这种神奇的无脚鸟，是王家卫在《阿飞正传》中留下的经典意象，也是这部电影最触人心弦的隐喻。而在现实世界中，「无人机」应该算是最接近无脚鸟的存在。

但却有这么一个研究团队，非要给「无脚鸟」装上脚。

在瑞士日内瓦湖畔，洛桑联邦理工学院（EPLF）不仅是机器人专家们的圣地，更是各种小鸟的「快乐大本营」。然而，小鸟们现在似乎不太热衷于飞行了，更喜欢在地面上悠哉游哉地散步，反正好吃的遍地都是。

「每当我在校园里遇到乌鸦时，我都会观察它们是如何行走、跳过或跃上障碍物，以及如何起飞的，」EPLF 智能系统实验室的博士生 Won Dong Shin 说道。「通过我的观察，即使只需要用翅膀就能起飞，但鸟儿们总是以跳跃作为起步。」

Shin 将他的发现转化成了论文，探讨了鸟类为何通过跳跃起飞，以及如何将这一特性应用到固定翼无人机上。这篇论文已被《Nature》接收并发表。

论文标题：Fast ground-to-air transition with avian-inspired multifunctional legs
论文链接：https://www.nature.com/articles/s41586-024-08228-9

传统的固定翼无人机通常需要跑道或弹射器才能起飞，而 Shin 开发的 RAVEN（Robotic Avian-inspired Vehicle for multiple ENvironments）无人机则采用了仿生鸟腿设计，让无人机能像乌鸦一样跳跃起飞，并在地面上灵活移动。

早在 2019 年，南非就有一家叫 Passerine 的创业公司提出了类似的设计，为货运无人机装上机械腿来帮助起飞。这个设计很受欢迎，因为无人机能飞得更远、续航更久，比在机身上安装多个螺旋桨要高效得多。

Passerine的无人机

「我们和 Passerine 都想让固定翼飞行器能够跳跃起飞，」Shin 解释说，「但我们的目标不太一样。Passerine 只关注如何让无人机起跳，而我们的 RAVEN 想做的不止于此。」

仿生设计的无人机

多功能腿部设计让 RAVEN 更接近真实的鸟类。虽然这些机械腿的复杂性和功能性还远不及真实的鸟腿，但通过模仿大自然的智慧，比如像弹簧一样能储存和释放能量的「人造肌腱」，以及能灵活抓握的机械脚趾，RAVEN 已经能像真正的鸟儿一样轻盈地行走、跳跃了。

尽管名叫「渡鸦」，但 RAVEN 的体型实际上和乌鸦差不多：翼展 100 厘米，机身长 50 厘米。它能以每 4 秒 1 米的速度行走，跨越 12 厘米的缝隙，并能跳上 26 厘米高的障碍物。

在跳跃起飞时，RAVEN 的腿部能将无人机推送到近半米的起始高度，并达到 2.2 米 / 秒的起速。

RAVEN 的脚趾设计特别有趣，当它没有脚趾时，RAVEN 就会狼狈地摔倒:

Shin 解释道：「加入一个被动弹性脚趾关节非常重要，这样可以实现多种步态模式，并确保 RAVEN 能够以正确的角度进行起飞。」

大多数双足机器人都采用可以直接控制脚部的角度的驱动器，但对于一个飞行机器人来说，出于重量的考虑，不能随便在各处加上驱动器。事实上，RAVEN 的重量为 620 克，其中 230 克来自于这双腿。

通过电机控制髋关节和踝关节的运动，形成了简化但仍具有鸟类特征的腿部结构，而踝关节和脚趾关节中的弹簧则有助于吸收力量和储存能量。

为什么要给无人机装上腿呢？

问题在于，无人机和鸟类不同，它不需要腿部也可以起飞。由于 RAVEN 本身重量轻、动力强，即使不用腿部，只要调整好角度也能从地面起飞。这就让人不禁思考：与其设计复杂的腿部机构，是否可以用几根简单的支撑杆来替代，一样能达到帮助起飞的目的呢？

研究人员对此进行了测试，发现非跳跃起飞的效果很差。高攻角和低起飞速度的组合导致飞行极不稳定，虽然能飞，但很勉强。

相比之下，跳跃起飞的能量效率整体上比静态起飞高出约 10 倍。正如论文总结的那样，「尽管跳跃起飞需要略高的能量输入，但在将驱动能量转换为飞行所需的动能和势能方面，这是最高效和最快速的方法。」

而且就像鸟类一样，相比反复短距离飞行，RAVEN 也可以利用腿部在地面上以更节能的方式移动。

Won Dong Shin 拿着 RAVEN

能否应用到更大型的无人机上？

当然，鸟类的腿部除了行走、跳跃之外还有很多其他用途。Won Dong Shin 希望 RAVEN 的机械腿也能逐渐扩展。最显而易见的就是用于降落：「鸟类利用腿部减速和缓冲冲击力，这一原理也可以应用到 RAVEN 的腿部设计上，」Shin 说道。

不过，要实现这一点，无人机还需要配备感知系统来计算和预测降落轨迹、时机和姿态。此外，游泳、栖息和抓取等功能也都需要全新的脚部设计。

至于如何将这一设计扩展到更大尺寸的无人机，Shin 指出，超过一定体型的鸟类就无法通过跳跃起飞。它们要么需要从高处跳下，要么需要借助跑道。因此，如何让这一设计适用于更大型、能够承载有效载荷的无人机仍是一个挑战。

Shin 强调，扩展工程系统通常比生物系统更容易，他对于 RAVEN 的腿部设计能够用于需要大量承重的快递无人机持乐观态度。

目前，研究团队正在开发一套视觉系统，用于避障和降落，同时也在研究能够让无人机通过狭窄缝隙的折叠翼。Shin 表示，「我也很想为 RAVEN 加入可以拍打翅膀的扑翼设计。这项改进将让无人机的运动方式更接近鸟类，并提供更多有趣的研究课题。」

参考链接：

https://spectrum.ieee.org/bird-drone

https://www.youtube.com/watch?v=-8DJ1a3sLIc&t=5s

https://www.youtube.com/watch?v=ewYISBNg-6k

#Correlation-Aware Graph Convolutional Networks for Multi-Label Node Classification

多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

ACM SIGKDD（简称 KDD）始于 1989 年，是全球数据挖掘领域历史最悠久、规模最大的国际顶级学术会议。KDD 2025 将于 2025 年 8 月 3 日在加拿大多伦多举办。

近日，阿里安全交互内容安全团队与浙江大学软件学院周晟老师团队针对多标签分类场景的图神经网络增强技术的联合研究成果《Correlation-Aware Graph Convolutional Networks for Multi-Label Node Classification》被 KDD 2025 收录。这也是 NeurIPS 2024 之后，双方合作的第二篇顶会成果。

论文地址：https://arxiv.org/pdf/2411.17350

图神经网络（GNNs）已经在图数据挖掘的节点分类、链接预测的任务中都取得了巨大成功。对于节点分类任务，传统图神经网络主要关注各节点数据单标签类别的场景。而在现实世界中，许多节点属于多个类别，而不是单一类别，如社交网络中的用户多兴趣，风险用户往往关联了多个风险域，使得 GNNs 在处理多标签场景时可能会面临新的问题。

在这项工作中，我们分析了多标签分类场景对于 GNN 本身消息传递机制带来的潜在问题，将其归纳为节点特征和拓扑结构的模糊性，进而提出了 CorGCN 进行解决。

具体来讲，CorGCN 首先学习与多标签相关的节点特征并将它们分解为多个标签感知特征；基于此，进一步分解出多个标签感知图进行图增强；最终在标签感知图上进行关联增强的图卷积。

1. 研究背景

本研究重点关注于如何增强图神经网络在多标签节点分类的能力。在现实世界中，图上的节点更多情况下属于多个类别，而不是单一类别，使得 GNNs 在处理多标签场景时可能会面临着特征和拓扑结构的模糊性问题，这降低了图数据中信息传递的准确度，并影响了图数据中的标签相关性建模。

我们首先将多标签节点分类场景的特点归纳如下，图 1 给出示意和 PCG 数据集 [1] 上的分析实验。

图 1：（a）多标签节点分类区别示例；(b)-(c) PCG 数据集上的模糊特征和模糊拓扑。

（1）模糊特征（Ambiguous Feature）：在单标签设置中，节点可以通过转换特征从邻域节点中聚合特定类型的标签模式。然而，在多标签设置中，与非图数据上的数据特征存在模糊问题类似，一个节点的特征可能与多个标签相关，特征所代表的模式是模糊的。因此，从这些模糊特征中聚合信息将影响节点表示的区分能力。图 1-(b) 展示了在现实世界的图中，分配相似特征的节点可能共享不同的标签数量。

（2）模糊拓扑（Ambiguous Topology）：在单标签设置中，连接的节点通常共享相同的单一标签（也称为同配性假设 [2]），因此沿边传播的模式通常是确定性的。然而，在多标签设置中，连接的节点都有多个标签，沿边传播的模式通常是模糊的。这种模糊性使得我们难以确定应该从哪些连接的节点中聚合特定标签的信息。直接从所有邻居那里聚合信息将进一步累积模糊性，损害 GNN 学习到的表示的区分能力，最终影响特定标签的推断。图 1-(c) 展示了在现实世界的图中，连接的节点可能共享不同的标签数量。

因而，在模糊特征和模糊拓扑的情况下进行图神经网络的消息聚合也会具有以下问题需要解决：

标签独特性（Label Distinctiveness）：如前所述，多标签图中的节点属性和边可能同时受到多个标签的影响。直接从这样的图中提取信息，混合节点标签可能导致标签独特性的丧失，导致对每个标签的探索不足。

标签相关性（Label Correlation）：在多标签设置中，节点与多个标签的关联意味着这些标签之间存在相关性。现有多标签学习方法的成功也证明了充分利用这些标签间相关性可以显著提高表示的质量。

基于此分析，本文提出了基于标签关联感知图神经网络，从而为 GNN 更好地适配于多标签节点分类场景提供思路。

2. 研究方法

本研究论文提出了一种名为 Correlation-Aware Graph Convolutional Network（CorGCN）的方法，整体思路如图 2 所示，包括：

关联感知图分解（Correlation-Aware Graph Decomposition）：首先学习与标签相关的节点特征，并将它们分解为多个标签感知特征。然后，基于分解后的特征，进一步分解出多个标签感知图进行图增强。
关联增强图卷积（Correlation-Enhanced Graph Convolution）：每一层包括在每个标签感知图视图中的邻域内标签消息传递以及标签感知消息之间的标签间相关性传播。

图 2：CorGCN 的整体架构示意。

2.1 关联感知图分解（Correlation-Aware Graph Decomposition）

由于在多标签场景中，图的节点特征和拓扑结构存在不明确性，我们的目标是将它们分解成多个图。然而，直接进行分解会导致关键的多标签相关性属性的丢失。因此，我们需要基于已经包含了标签相关性的表示来进行分解，因此本阶段存在两个递进的步骤：节点特征分解和拓扑结构分解。

节点特征分解（Feature Decomposition）：该模块首先建模节点-标签和标签-标签之间的相关性，然后基于此进行节点特征在不同标签空间的分解。

具体而言，首先对于 K 个标签分别初始化一个可学习标签表征 E^l，而 n 个节点的原始特征定义为 E^x。

这两类表征会利用对比学习和最终的分类损失进行相关性学习。随后我们通过相似度投影得到相关性建模后分解到 K 个标签空间的节点表征，每个节点的分解后表征为 E_i^proj。

拓扑结构分解（Structure Decomposition）：基于关联感知分解的节点表征，该模块旨在为每个标签及其相关标签分解图结构（消息传递路径），以增强消息传播的图结构。

具体而言，利用原始图结构 A^0 在每个标签 k 的表征空间中进行中心节点与邻域信息的融合：

随后，基于融合后的标签 k 角度的表征，利用 top-k 相似度构造标签 k 的传播图 G^k，如下所示：

此外，结合相关标签感知的节点特征和原始图拓扑，可以获得多标签感知图 G_0 = (A_0, E_x) 以通过消息传递捕获相关结构模式，从而最终可以得到如下的感知相关性的分解图 CDG：

2.2 关联增强图卷积（Correlation-Enhanced Graph Convolution）

先前对于多标签节点分类的研究主要进行了统一的邻域消息传递。我们认为这种方法有两个主要的局限性：（1）以统一的方式传递来自邻域的模糊消息；（2）相关性忽视，即在传递消息时忽略了标签之间的相关性。因此，我们进一步为𝐶𝐷𝐺（Correlation-Enhanced Graph Convolution，相关性增强图卷积）配备了相关性增强的图卷积。

标签内消息传递（Intra-Label Message Passing）：在每个标签视图的图中进行标签内消息传递。