Infinity-MM数据集:一个包含 4000 万个样本的开源视觉语言模型的大规模多模态指令数据集。
2024-10-15,由北京智源人工智能研究院、北京交通大学、北京邮电大学等机构联合创建了Infinity-MM,一个包含4000万个样本的大规模多模态指令数据集。这个数据集通过严格的质量过滤和去重,显著提升了开源模型与闭源模型性能的差距,为开源视觉语言模型的发展带来了重要意义。
数据集地址:Infinity-MM|多模态数据数据集|模型训练数据集
一、研究背景:
近年来,视觉语言模型(VLMs)取得了显著的进展,引起了越来越多的关注。这些模型通过整合视觉和语言信息,展现出了强大的多模态处理能力。然而,现有的开源数据集在规模和质量上的限制,使得基于这些数据训练的模型性能仍然落后于闭源模型。
目前遇到困难和挑战:
1、开源数据集的规模有限,无法支撑大型模型的训练需求。
2、开源数据集的质量参差不齐,影响了模型的训练效果。
3、缺乏高质量的指令数据,限制了模型在复杂任务上的表现。
数据集地址:Infinity-MM|多模态数据数据集|模型训练数据集
二、让我们一起来看一下Infinity-MM数据集:
Infinity-MM是一个由多个机构合作创建的大规模多模态指令数据集,目的提升开源视觉语言模型的性能。
数据集包含了4000万个经过严格质量筛选和去重的样本,通过利用开源视觉语言模型生成合成指令数据,极大地丰富了数据的多样性和覆盖范围。
数据集构建:
包括了从多个开源渠道收集并分类的多模态数据,涵盖了图像描述、视觉指令、选择性视觉指令等多种类型,以及基于开源VLM模型的合成数据生成方法的开发。此外,还进行了数据的统一去重和过滤,确保了数据集的高质量和多样性。
数据集特点:
Infinity-MM数据集的特点包括大规模的样本数量、高质量的数据筛选、以及多样化的指令类型。这些特点使得数据集能够有效地支持开源模型的训练和性能提升。
可以使用Infinity-MM数据集来训练和优化视觉语言模型,通过提供详细的图像注释和多样化的问题生成,来提高模型理解和执行指令的能力。
基准测试 :
基于Infinity-MM数据集,研究者们成功训练了一个20亿参数的VLM模型Aquila-VL-2B,该模型在多个基准测试中达到了与同类规模模型相比的最佳性能。
合成数据生成方法的图示。
合成数据的指令类型的分布。
用于跨各个阶段训练 Aquila-VL-2B 的配置。
模型性能随训练数据大小的变化。
三、展望Infinity-MM数据集应用:
场景一:
想象一下,你正在玩一个解谜游戏,游戏里有各种复杂的线索和谜题。
比如,你正在玩一个叫做“密室逃脱:古堡之谜”的游戏。这个游戏把你带到了一座古老的城堡,里面充满了神秘的房间和复杂的机关。你的任务是解开一系列谜题,找到隐藏的宝藏,并在天黑之前逃出城堡。
你来到了一个装饰着古老壁画的房间,墙上挂着几幅看起来年代久远的油画,每幅画都描绘了不同的场景。游戏提示说,这些画中隐藏着打开下一个房间门的线索。你仔细观察,发现其中一幅画的角落有一些奇怪的符号,但是你看不出来它们代表什么。
这时,你想到了基于Infinity-MM数据集训练的AI。你拿出手机,打开AI应用,拍下了那幅画的角落,然后对AI说:“嘿,帮我看看这幅画角落里的符号,我觉得这可能是解开谜题的关键。”
AI迅速分析了图片,然后给你提供了一些信息:“这些符号看起来像是古堡的建筑平面图的一部分。我注意到每个符号旁边都有一些数字,这可能是坐标。而且,我还发现这些符号和对面墙上的挂毯图案有些相似,可能是用来指示方向的。”
你按照AI的提示,走到对面的墙边,发现挂毯上的图案确实和画中的符号相匹配。你开始尝试根据符号的指示和坐标,在挂毯上找到对应的位置。每找到一个符号,你就按下挂毯上的一个机关,慢慢地,你听到了墙壁后面传来了机关转动的声音。
最后,当你按下最后一个符号对应的机关时,墙壁缓缓移开,露出了一个隐藏的通道。你兴奋地走进去,发现里面是一个藏宝室,里面堆满了金币和宝石。游戏提示音响起:“恭喜你,你成功解开了古堡之谜,找到了宝藏!”
它能帮助玩家解读视觉线索和文字提示,让解谜过程更加流畅和有趣。
场景二:
比如,你是一名对自然充满热爱的摄影师。最近,你去了郊外的一个国家公园,那里的深秋景色简直就像是从画中走出来的一样。你带着你的相机,找到了一个绝佳的拍摄地点——一片被深秋染成浓郁色彩的树林,树木的叶子已经从金黄变成了深红和橙色,地上铺满了厚厚的落叶。太阳开始西下,天空被晚霞染成了紫罗兰色,而树林里,最后几缕阳光透过稀疏的树枝,形成一道道光束,照亮了林间小道上的落叶。你按下快门,捕捉到了这个充满诗意的瞬间,照片美得让人窒息。
你想让更多的人通过你的照片感受到这份深秋的宁静和壮丽,所以你决定给这张照片配上一段文字描述。你找到了一个基于Infinity-MM数据集训练的AI模型来帮忙。你把照片上传到AI系统,然后告诉它:“嘿,AI,帮我给这张照片写点什么吧,我想要那种能让人感受到深秋森林的宁静和壮丽的文字。”
AI模型迅速分析了照片的每一个细节,从深红色的树叶到光束的角度,再到小径上的落叶。过了一会儿,AI给出了它的创作:
“深秋的黄昏,我站在这片古老的森林中,感受着季节的变迁。树木的叶子已经从生机勃勃的绿变成了深沉的红和橙色,仿佛是大自然在准备冬眠前的最后狂欢。地上的落叶铺成了一条柔软的地毯,每走一步,都能听到它们在脚下沙沙作响,那是深秋的耳语。夕阳的余晖透过树梢,洒在这片红色的海洋上,形成一道道光束,如同通往神秘领域的金色大门。周围的空气里弥漫着泥土和落叶的气息,混合着远处木柴燃烧的烟熏味,这是深秋独有的香气。在这里,时间仿佛静止了,让人忘却了外界的喧嚣,只想沉浸在这份宁静和壮丽中。”
这段描述不仅捕捉了照片的视觉效果,还传达了深秋森林的氛围和情感。你读着AI创作的文本,感到非常满意,因为它完美地补充了你的照片,让人仿佛能感受到落叶在脚下的沙沙声,感受到夕阳的温暖。你把照片和这段文字一起发布在了你的摄影博客上,很快就收到了朋友们的点赞和评论,他们说这让他们仿佛亲身体验了那个宁静的深秋黄昏。