当前位置: 首页 > news >正文

GameGen-O:大模型颠覆3A游戏开发

什么?大模型很快就能生成《黑神话·悟空》这样的3A大作?!

先来看一段demo,《西游记》的世界已经呈现在眼前:

搭配上BGM,熟悉的感觉是不是立刻涌上心头?(doge)

这正是腾讯近期推出的GameGen-O,一个专门用于生成开放世界视频游戏的Transformer模型。

简单来说,GameGen-O可以模拟各种游戏引擎的功能,生成游戏角色、动态环境、复杂动作等等。

当然,它还支持交互控制。用户可以通过文本、操作信号和视频提示来操纵游戏内容。

消息一出,立刻在𝕏(前推特)上引发刷屏狂潮,网友们纷纷惊呼:

连游戏工作室Azra Games的联合创始人兼CTO也直言:

GameGen-O将成为游戏工作室的“ChatGPT时刻”。

“游戏工作室的ChatGPT时刻”

这个项目是腾讯与香港科技大学、中国科技大学联合推出的。团队的目标是利用AI模型替代部分游戏开发流程。目前公布的功能包括:角色创建、环境生成、动作生成、事件生成以及交互控制。

我们逐一预览一下这些功能:

通过GameGen-O,开发者可以一键生成各种角色,无论是西部牛仔、太空人、魔法师还是警卫,统统轻松搞定。

如果因为经费不足而无法进行真实取景,GameGen-O也能提供Plan B!

展示操作技巧、生成各种视角的动作也变得不再困难。

游戏中那些挑战难度的场景,比如海啸、龙卷风、火灾等事件,也能轻松生成。(doge)

此外,GameGen-O支持开放域生成,无论是风格、环境还是场景,都可以自由设定。

更为强大的是,只需通过文本、操作信号和视频提示,就能与游戏实现互动,比如控制角色向左、向右或走向黎明……

这意味着什么?游戏开发一直以来都是一项“烧钱”的工程,但现在,普通玩家也有机会使用GameGen-O来制作自己的游戏。

一位AI架构师甚至断言:

利用GPT-4o标注数据

为了开发这个模型,团队主要做了两项工作:

  1. 构建专有数据集OGameData,利用GPT-4o进行数据标注;

  2. 经过两个阶段的训练过程。

具体而言,团队首先提出了一个数据集构建管道。

他们从互联网上收集了32000个原始视频,这些视频来自数百款开放世界游戏,时长从几分钟到几小时不等,涵盖角色扮演、第一人称射击、赛车、动作益智游戏等类型。

然后,经过人类专家对这些视频进行识别和筛选,最终选出约15000个可用视频。接着,这些视频片段被切割成更小的片段,并根据美学、光流和语义内容进行严格排序和过滤。

接下来,团队使用GPT-4o对超过4000小时的高质量视频片段进行了细致的标注。这些片段的分辨率从720p到4k不等。为了实现交互控制性,团队从标注后的数据集中选择了最高质量的片段,并对其进行解耦标签(decoupled labeling)。

这种标签设计用于描述片段内容状态的变化,确保模型在训练时能够更加精细地处理和互动。对于这种由人类专家和GPT-4o协作的方式,有网友认为:

这是递归自我改进(recursive self-improvement)的一个典型案例。(人类专家确保了标注的准确性,并通过反馈机制帮助GPT-4o自我改进。)

GameGen-O的训练过程

数据准备完成后,团队通过基础预训练和指令调整两个阶段对GameGen-O进行训练。

在基础训练阶段,GameGen-O模型使用了一个2+1D VAE(变分自编码器,如Magvit-v2)来压缩视频片段。为了使VAE更适应游戏领域,团队对VAE解码器进行了特定领域的调整,并采用了不同帧速率和分辨率的混合训练策略,以增强跨帧率和分辨率的泛化能力。模型整体架构遵循了Latte和OpenSora V1.2框架的原则,通过掩码注意力机制,GameGen-O具备了文本到视频生成和视频续集的双重能力。

这种训练方法,结合OGameData数据集,使模型能够稳定且高质量地生成开放领域的视频游戏内容,为后续的交互控制奠定了基础。

预训练完成后,模型被固定,然后使用可训练的InstructNet进行微调,使其能够根据多模态结构指令生成后续帧。InstructNet用于接收各种多模态输入,包括结构化文本、操作信号和视频提示。在其调整过程中,当前内容被用作条件,在当前片段和未来片段内容之间建立映射关系,这种操作在多模态控制信号下完成。

结果是,在推理阶段,GameGen-O可以基于当前片段不断生成和控制下一个片段,实现了高度的交互性。

目前,GameGen-O的官方GitHub仓库已经建立,只不过代码尚未上传。感兴趣的朋友可以先收藏,随时关注。

项目主页:
https://gamegen-o.github.io/

GitHub官方仓库:
https://github.com/GameGen-O/GameGen-O/

参考链接:
[1]https://x.com/_akhaliq/status/1834590455226339492
[2]https://x.com/8teapi/status/1834615421728948581?s=46

国内直接使用ChatGPT4o:

需要直接私信我!!!


http://www.mrgr.cn/news/27438.html

相关文章:

  • mp4文件解析
  • 跟《经济学人》学英文:2024年09月14日这期 People are splurging like never before on their pets
  • electron-vite vue3离线使用monaco-editor
  • 合资油车断崖式崩盘,买车的千万慎重了
  • [网络]http请求中的URL,方法,header 和 http响应中的状态码
  • 三、Kubernetes中的控制器的使用
  • 【AI大模型】Kimi API大模型接口实现
  • 如何使用 Visual Studio Code 将工作效率提升 200%
  • 21:I2C三:MPU6050的使用
  • 可解释性机器学习中的局部解释
  • 利用四元数进行蛋白质原子坐标旋转变换
  • 数据库全攻略:从类型到安全与优化
  • [产品管理-17]:NPDP新产品开发 - 15 - 产品设计与开发工具 - 工欲善其事,必先利其器 - 创意工具:借助各种工具和方法,完成产品的创意
  • Python计算机视觉 第10章-OpenCV
  • 力扣最热一百题——螺旋矩阵
  • 【LLM多模态】文生视频评测基准VBench
  • 【文件系统】软硬链接
  • Google Earth Engine(GEE)——2000年以来森林砍伐数据集的统计和展示
  • 【EI 会议征稿通知】第九届计算机技术与机械电气工程国际学术论坛(ISCME 2024)
  • 四、kubernetes中的微服务