当前位置：首页 > news >正文

Infinity-MM数据集：一个包含 4000 万个样本的开源视觉语言模型的大规模多模态指令数据集。

news 2026/2/11 10:22:35

2024-10-15，由北京智源人工智能研究院、北京交通大学、北京邮电大学等机构联合创建了Infinity-MM，一个包含4000万个样本的大规模多模态指令数据集。这个数据集通过严格的质量过滤和去重，显著提升了开源模型与闭源模型性能的差距，为开源视觉语言模型的发展带来了重要意义。

数据集地址：Infinity-MM|多模态数据数据集|模型训练数据集

一、研究背景：

近年来，视觉语言模型（VLMs）取得了显著的进展，引起了越来越多的关注。这些模型通过整合视觉和语言信息，展现出了强大的多模态处理能力。然而，现有的开源数据集在规模和质量上的限制，使得基于这些数据训练的模型性能仍然落后于闭源模型。

目前遇到困难和挑战:

1、开源数据集的规模有限，无法支撑大型模型的训练需求。

2、开源数据集的质量参差不齐，影响了模型的训练效果。

3、缺乏高质量的指令数据，限制了模型在复杂任务上的表现。

数据集地址：Infinity-MM|多模态数据数据集|模型训练数据集

二、让我们一起来看一下Infinity-MM数据集：

Infinity-MM是一个由多个机构合作创建的大规模多模态指令数据集，目的提升开源视觉语言模型的性能。

数据集包含了4000万个经过严格质量筛选和去重的样本，通过利用开源视觉语言模型生成合成指令数据，极大地丰富了数据的多样性和覆盖范围。

数据集构建：

包括了从多个开源渠道收集并分类的多模态数据，涵盖了图像描述、视觉指令、选择性视觉指令等多种类型，以及基于开源VLM模型的合成数据生成方法的开发。此外，还进行了数据的统一去重和过滤，确保了数据集的高质量和多样性。

数据集特点：

Infinity-MM数据集的特点包括大规模的样本数量、高质量的数据筛选、以及多样化的指令类型。这些特点使得数据集能够有效地支持开源模型的训练和性能提升。

可以使用Infinity-MM数据集来训练和优化视觉语言模型，通过提供详细的图像注释和多样化的问题生成，来提高模型理解和执行指令的能力。

基准测试：

基于Infinity-MM数据集，研究者们成功训练了一个20亿参数的VLM模型Aquila-VL-2B，该模型在多个基准测试中达到了与同类规模模型相比的最佳性能。

合成数据生成方法的图示。

合成数据的指令类型的分布。

用于跨各个阶段训练 Aquila-VL-2B 的配置。

模型性能随训练数据大小的变化。

三、展望Infinity-MM数据集应用：

场景一：

想象一下，你正在玩一个解谜游戏，游戏里有各种复杂的线索和谜题。

比如，你正在玩一个叫做“密室逃脱：古堡之谜”的游戏。这个游戏把你带到了一座古老的城堡，里面充满了神秘的房间和复杂的机关。你的任务是解开一系列谜题，找到隐藏的宝藏，并在天黑之前逃出城堡。

你来到了一个装饰着古老壁画的房间，墙上挂着几幅看起来年代久远的油画，每幅画都描绘了不同的场景。游戏提示说，这些画中隐藏着打开下一个房间门的线索。你仔细观察，发现其中一幅画的角落有一些奇怪的符号，但是你看不出来它们代表什么。

这时，你想到了基于Infinity-MM数据集训练的AI。你拿出手机，打开AI应用，拍下了那幅画的角落，然后对AI说：“嘿，帮我看看这幅画角落里的符号，我觉得这可能是解开谜题的关键。”

AI迅速分析了图片，然后给你提供了一些信息：“这些符号看起来像是古堡的建筑平面图的一部分。我注意到每个符号旁边都有一些数字，这可能是坐标。而且，我还发现这些符号和对面墙上的挂毯图案有些相似，可能是用来指示方向的。”

你按照AI的提示，走到对面的墙边，发现挂毯上的图案确实和画中的符号相匹配。你开始尝试根据符号的指示和坐标，在挂毯上找到对应的位置。每找到一个符号，你就按下挂毯上的一个机关，慢慢地，你听到了墙壁后面传来了机关转动的声音。

最后，当你按下最后一个符号对应的机关时，墙壁缓缓移开，露出了一个隐藏的通道。你兴奋地走进去，发现里面是一个藏宝室，里面堆满了金币和宝石。游戏提示音响起：“恭喜你，你成功解开了古堡之谜，找到了宝藏！”

它能帮助玩家解读视觉线索和文字提示，让解谜过程更加流畅和有趣。

场景二：

比如，你是一名对自然充满热爱的摄影师。最近，你去了郊外的一个国家公园，那里的深秋景色简直就像是从画中走出来的一样。你带着你的相机，找到了一个绝佳的拍摄地点——一片被深秋染成浓郁色彩的树林，树木的叶子已经从金黄变成了深红和橙色，地上铺满了厚厚的落叶。太阳开始西下，天空被晚霞染成了紫罗兰色，而树林里，最后几缕阳光透过稀疏的树枝，形成一道道光束，照亮了林间小道上的落叶。你按下快门，捕捉到了这个充满诗意的瞬间，照片美得让人窒息。

你想让更多的人通过你的照片感受到这份深秋的宁静和壮丽，所以你决定给这张照片配上一段文字描述。你找到了一个基于Infinity-MM数据集训练的AI模型来帮忙。你把照片上传到AI系统，然后告诉它：“嘿，AI，帮我给这张照片写点什么吧，我想要那种能让人感受到深秋森林的宁静和壮丽的文字。”

AI模型迅速分析了照片的每一个细节，从深红色的树叶到光束的角度，再到小径上的落叶。过了一会儿，AI给出了它的创作：

“深秋的黄昏，我站在这片古老的森林中，感受着季节的变迁。树木的叶子已经从生机勃勃的绿变成了深沉的红和橙色，仿佛是大自然在准备冬眠前的最后狂欢。地上的落叶铺成了一条柔软的地毯，每走一步，都能听到它们在脚下沙沙作响，那是深秋的耳语。夕阳的余晖透过树梢，洒在这片红色的海洋上，形成一道道光束，如同通往神秘领域的金色大门。周围的空气里弥漫着泥土和落叶的气息，混合着远处木柴燃烧的烟熏味，这是深秋独有的香气。在这里，时间仿佛静止了，让人忘却了外界的喧嚣，只想沉浸在这份宁静和壮丽中。”

这段描述不仅捕捉了照片的视觉效果，还传达了深秋森林的氛围和情感。你读着AI创作的文本，感到非常满意，因为它完美地补充了你的照片，让人仿佛能感受到落叶在脚下的沙沙声，感受到夕阳的温暖。你把照片和这段文字一起发布在了你的摄影博客上，很快就收到了朋友们的点赞和评论，他们说这让他们仿佛亲身体验了那个宁静的深秋黄昏。