当前位置：首页 > news >正文

2024人工智能报告.zip ｜一文迅速了解今年的AI界都发生了什么？

news 2024/10/21 14:25:09

2024年，大家都在各行各业不断（被迫）内卷，毫无疑问，人工智能（AI）领域也卷疯了，国内外各企业纷纷掏出自己的看家本领，与对手硬碰硬，看谁才是“AI第一强”。

小编表示今年AI免费福利没少薅～同时也切身体会到AI工具与应用在快速迭代情况下，性能是越来越牛逼。

并且作为一线吃瓜群众，经常看到各科技大牛围绕AI吵成一锅粥，在线开撕；也看到他们围绕AI发表一系列长长长长文表明自己的观点。

近日，来自剑桥大学，AI风险投资公司Air Street Capital创始人兼CEO Nathan Benaich和来自牛津大学，Air Street Capital平台负责人Alex Chalmers共同发表《State of AI Report》2024人工智能现状报告，

报告主要围绕人工智能（AI）领域的最新进展、政治动态、安全挑战及未来预测几大方面进行说明。下面让小编来为讲述这份报告重点都说了些啥。

一、2024年AI技术的发展

在对性能影响最小的情况下缩减模型规模

一个由Meta和MIT组成的团队研究了开放权重的预训练大型语言模型（LLM），得出结论称，可以去除模型多达一半的层数，而在问答基准测试中的性能下降可以忽略不计。他们根据相似性确定了最佳的移除层，并通过少量高效的微调“修复”模型。
NVIDIA的研究人员采用了更激进的方法，通过剪枝层、神经元、注意力头和嵌入，然后使用知识蒸馏进行高效再训练。
MINITRON模型源自Nemotron-4 15B，其性能与Mistral 7B和Llama-3 8B等模型相当或更优，同时使用的训练标记数量减少了最多40倍。

可以通过降低参数精度来减小大型语言模型（LLM）的内存需求

微软的 BitNet 使用“BitLinear”层替代标准线性层，采用1位权重和量化激活。与全精度模型相比，其性能具有竞争力，并展示了与全精度变压器类似的规模定律，同时显著节省了内存和能量。
微软随后推出了BitNet b1.58，采用三元权重，在保持效率提升的同时，使 3B 规模的模型性能达到全精度 LLM 的水平。
字节跳动的TiTok（基于Transformer的一维分词器）将图像量化为紧凑的一维离散令牌序列，用于图像重建和生成任务。这使得图像可以用仅32个令牌表示，而不是数百或数千个。

精简模型变得越来越流行

谷歌从Gemini 1.5 Pro中提炼出Gemini 1.5闪存，而Gemma 2 9B是从Gemma 2 27B中提炼出来的，Gemma 2B则来自一个尚未发布的更大型号。
Black Forest Labs发布了FLUX.1 dev，这是一种从他们的Pro模型中提取的开放重量文本到图像。

可以运行在智能手机上，足够小且高性能的LLM和多模态模型不断涌现

微软的phi-3.5-mini是与7B和Llama 3.1 8B等大型模型竞争的3.8B LM。为了实现移动设备上的推理，将内存占用减少到大约1.8GB。
苹果公司推出了MobileCLIP，这是一个针对智能手机快速推理优化的高效图像-文本模型家族。他们使用新颖的多模态强化训练，通过从一个图像描述模型和一组强大的CLIP编码器中转移知识来提高紧凑型模型的准确性。
Hugging Face也加入了行动，推出了SmolLM系列小型语言模型，有135M、360M和1.7B三种格式。通过使用一个高度精选的合成数据集（通过Cosmopedia增强版创建），团队实现了该大小的最佳性能。

混合模型开始发力

结合注意力和其他机制的混合模型，能够保持甚至提高准确度，同时降低计算成本和内存占用。

去年设计用于处理更长序列的Mamba选择性状态空间模型，可以在一定程度上与变压器竞争，但需要复制或上下文学习的任务中表现不佳。尽管如此，Falcon的Mamba 7B在与相似大小的Transformer模型相比时表现出令人印象深刻的基准性能。
格里芬（Griffin）由谷歌DeepMind训练，混合线性重复和局部注意，在使用6倍少的令牌进行训练时，与Llama-2相抗衡。

去年的报告指出，合成数据存在意见分歧：一些人认为它有用，另一些人则担心其可能通过累积错误引发模型崩溃。但今年人们对它的看法正在变得积极起来。

合成数据获得更广泛的采用

合成数据是Phi family的主要训练数据来源，Anthropic在培训Claude 3时使用合成数据，来代表可能在训练数据中缺失的场景。
Hugging Face使用Mixtral-8x7B Instruct生成超过3000万份文件和250亿个合成教科书、博客文章和故事，以重新创建Phi-1.5训练数据集，他们将其称为Cosmopedia。
为了使合成数据更容易，NVIDIA发布了Nemotron-4-340B家族，这是一个专为合成数据生成设计的模型套件，可通过许可协议获得。另外Meta的Llama也可以用于合成数据生成。
通过直接从对齐的LLM中提取它，也有可能创建合成高质量指令数据。使用像Magpie这样的技术，有时可以将模型进行微调，以达到与Llama-3-8B-Instruct相当的表现。

RAG提高嵌入模型质量

虽然检索和嵌入不是新的，但对增强生成检索（RAG）的兴趣增长促使了嵌入模型质量的提高。

在常规的LLMs中，证明有效的剧本是大规模性能改进的关键（GritLM有约47亿个参数，而之前的嵌入模型只有1.1亿个）。
同样，大规模语料库的使用和改进过滤方法导致了小型模型的巨大改善。
同时，ColPali 是一种利用文档的视觉结构而不是文本嵌入来改进检索的视图-语言嵌入模型。
检索模型是少数几个开放模型通常优于大型实验室专有模型的子领域之一。在MTEB检索排行榜上，OpenAI的嵌入模型排名第29位，而NVIDIA的开放NV-Embed-v2排名第一。

传统RAG解决方案中的问题得到解决

传统的RAG解决方案通常会以滑动窗口的方式，每次创建256个令牌的文本片段。这使得检索更加高效，但准确性明显降低。Anthropic 通过“上下文嵌入”解决了这个问题，其中提示语指示模型生成解释文档中每个段落上下文的文本。他们发现，这种方法导致前20个检索失败率的减少为35%(5.7%→3.7%)。但RAG的评估仍待解决，研究人员正在探索新的方法，例如Ragnarök，它通过比较一对系统，引入了一个基于网络的人类评估竞技场。这解决了评估RAG质量的挑战，超越了传统的自动化指标；同时Researchy Questions提供了大量复杂、多方面的需要深入研究和分析才能回答的问题，这些问题是来自真实用户的查询。

二、2024国内 VS 国外AI企业，竞争达到白热化阶段

首先让我们看看，今年国外AI企业做了哪些引得全网沸腾？小编选取报告中一些事例进行展现～

期待已久的OpenAI草莓终于落地，加倍扩大推理计算规模

通过将计算从预训练和后训练转移到推理，o1 以链式思维（COT）的方式逐步处理复杂的提示，采用强化学习（RL）来优化COT及其使用的策略。这使得解决多层次的数学、科学和编码问题成为可能，这些问题由于下一个词预测的固有限制，历史上大型语言模型（LLMs）难以应对。
OpenAI报告称，与4o相比，在需要大量推理的基准测试中取得了显著改进，尤其是在AIME 2024（竞赛数学）上，得分高达83.83，而4o只有13.4。
OpenAI在其API文档中明确指出，o1并不是4o的直接替代品，并且它并不是需要持续快速响应、图像输入或函数调用任务的最佳模型。

然而，这种能力的成本很高：o1-preview的100万输入标记费用为15美元，而100万输出标记则需60美元。这使其比GPT-4o贵3到4倍

Llama 3家族的出现，关闭了开放和封闭模型之间的差距

在四月，Meta推出Llama 3家族，七月推出3.1版本，九月推出3.2版本。

Meta使用令人难以置信的15T令牌来训练这个家族。虽然这超过了“Chinchilla-最佳”的培训计算量，但他们发现，无论是8B还是70B模型，在15T之前都以对数线性的方式改善。
Llama 3.1 405B是在超过16000个H100 GPU上训练的，这是第一个在这一规模上进行训练的Llama模型。
在九月，Meta推出了Llama 3.2，它包含了11B和90B的VLM（Llama多模态的首次亮相）。

Llama 3.1是迄今为止最大版本，其在推理、数学、多语言和长上下文任务中能够与GPT-4相抗衡。这标志首次开放模型缩小与专有前沿的差距。

上图为人们关于Llama 3.1 405B与GPT,Claude的评估，win:胜 Tie:平 Loss：输

借助AlphaGeometry，符号推理引擎得以拯救

谷歌DeepMind与纽约大学团队使用符号引擎生成了数百万条合成定理和证明，利用这些数据从零开始训练了一个语言模型。
AlphaGeometry在语言模型提出新构造，与符号引擎执行推理交替进行，直至找到解决方案。
令人印象深刻的是，AlphaGeometry在奥林匹克级几何问题基准测试中解决了30题中的25题，接近人类国际数学奥林匹克金牌得主的表现。第二好的AI表现仅得10分。
它还展示了泛化能力——例如，发现2004年国际数学奥林匹克问题中的一个具体细节对于证明并非必要

“尽管受到制裁，中国LLMs在排行榜上风头正劲”

由DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型在LMSYS排行榜上取得了优异的成绩，尤其在数学和编程方面表现尤为出色。
中国的最强模型与美国生产的第二强前沿模型竞争，同时在某些子任务上挑战了SOTA。中国模型更能优先考虑计算效率，以弥补GPU访问的限制，并学会比美国同行更有效地利用资源。
中国模型各有优势。例如，DeepSeek在推理过程中通过多头隐式注意力减少内存需求，并且改进了MoE架构。同时，零一万物更加关注数据集的建设而不是建筑创新。由于在像Common Crawl这样的流行存储库中相对缺乏数据，因此它更加关注建立强大的中文数据集来弥补不足。

中国开源项目在今年赢得全球粉丝，并且已经成为积极开源贡献者。其中几个模型在个别子领域中脱颖而出，成为强有力的竞争者。

DeepSeek在编码任务中已成为社区的最爱，其组合了速度、轻便性和准确性而推出的deepseek-coder-v2。
阿里巴巴最近发布了Qwen-2系列，社区对其视觉能力印象深刻，从具有挑战性的OCR任务到分析复杂的艺术作品，都完成的非常好。
在较小的一端，清华大学的自然语言处理实验室资助了OpenBMB项目，该项目催生了MiniCPM项目。这些是可以在设备上运行的小型<2.5B参数模型。它们的2.8B视觉模型在某些指标上仅略低于GPT-4V。

2024年是AI图像视频迅速发展的一年，这个赛道竞争异常激烈

国外Stability AI发布的Stable Video Diffusion，是第一个能够从文本提示生成高质量、真实视频的模型之一，并且在定制化方面取得了显著的进步。并且在今年3月，他们推出了Stable Video 3D，该模型经过第三个对象数据集的微调，可以预测三维轨道。

OpenAI的Sora能够生成长达一分钟的视频，同时保持三维一致性、物体持久性和高分辨率。它使用时空补丁，类似于在变压器模型中使用的令牌，但用于视觉内容，以高效地从大量视频数据集中学习。
除此之外，Sora还使用了其原始大小和纵横比的视觉数据进行训练，从而消除了通常会降低质量的裁剪和缩放。
Google DeepMind的Veo将文本和可选图像提示与嘈杂压缩视频输入相结合，通过编码器和潜在扩散模型处理它们，以创建独特的压缩视频表示。然后系统将此表示解码为最终的高分辨率视频。

Google DeepMind和OpenAI都给我们展示了强大的文本到视频扩散模型的预览。但访问仍然受到严格限制，而且他们也没有提供很多技术细节。

Meta更进一步，将音频加入其中，Movie Gen的核心是一个30亿视频生成和一个13亿音频生成模型，可以分别以每秒16帧的速度生成16秒的视频，并以每秒45秒的速度生成音频片段。这些模型利用了文本到图像和文本到视频任务的联合优化技术，以及为任意长度的视频生成连贯音频的新颖扩展方法。

小编说明：在这份报告中，原作者并没有对中国的AI生成图，生成视频的工具展开详细说明，只说明中国可灵与国外AI生成工具在竞争中。但着这并不代表中国有关该功能AI工具落后于国外。在2024年，国内涌现类似可灵、即梦、智谱清影等等一系列AI生成视频工具，其生成结果甚至远超国外，详情大家可以查看小编之前实测的8款国内外免费AI生成视频工具对比实测！我们真的可以做到“一人搞定一部影视作品“吗？

三、2024年AI模型在生物医学、气象预测等领域突破与应用

最重要的突破是——在2024年，诺贝尔物理学奖和化学奖先后颁给AI

AI不仅推动了机器学习的理论创新，还揭示了蛋白质折叠问题。其标志了人工智能AI已经真正成为一门科学学科和加速科学的工具。

AI在生物医学气象等突破应用有哪些？

基于深度学习和Transformer架构的蛋白质结构预测模型——AlphaFold 3

由DeepMind和Isomorphic Labs发布的AlphaFold 3是一个基于深度学习和Transformer架构的蛋白质结构预测模型，能够高精度地预测包括蛋白质、DNA、RNA、配体等生物分子的结构和相互作用。它的出现将为细胞功能解析、药物设计和生物科学的发展提供有力支持。

DeepMind展示新的实验生物学能力——AlphaProteo

其秘密蛋白质设计团队推出第一个模型AlphaProteo是一种能够设计出具有三到三百倍亲和力的亚纳米摩尔蛋白结合剂的生成模型。

生物学前沿模型的扩展：进化规模ESM3

自2019年以来，Meta一直在发布基于Transformer的语言模型（进化规模模型），这些模型是通过大型氨基酸和蛋白质数据库进行训练的。今年，他们发布了ESM3，这是一种前沿多模态生成模型，它是在蛋白质序列、结构和功能上进行训练的，而不是仅仅在序列上进行训练。与传统的掩码语言建模不同，ESM3的训练过程使用可变掩码计划，使模型暴露于各种掩码序列、结构和功能的组合。ESM3能够学习预测任何模态组合的完成情况。

学习设计人类基因组编辑器的语言模型 ——CRISPR-Cas图谱

Profluent的CRISPR-Cas图谱进行了微调，以生成具有新型序列的功能性基因编辑器。重要的是，这些编辑器首次被证明能够对体外的人类细胞DNA进行编辑。CRISPR-Cas图谱包含超过一百万个不同的CRISPR-Cas操作子，包括各种效应器系统，这些操作子是从组装的微生物基因组和宏基因组中挖掘出来的，覆盖了多种门类和生态系统。生成的序列比CRISPR-Cas图谱中的天然蛋白质更多样化，中位数相似度通常在40％至60％之间。一种针对Cas9蛋白质进行微调的模型可以生成新的编辑器，然后在人类细胞中进行了验证。其中一种编辑器提供了最佳的编辑性能，并且与SpCas9具有71.7％的序列相似性，现已开源为OpenCRISPR-1。

心智基础模型：从fMRI学习大脑活动

深度学习现在正在成为模拟大脑本身。BrainLM是一个基于功能性磁共振成像（fMRI）生成的6700小时人类脑活动记录而建立的基础模型，该模型可以检测到血氧变化；可以重建被遮盖的空间和时间脑活动序列，并且重要的是它可以泛化到保留分布；不仅如此，这个模型可以微调以预测临床变量例如年龄、神经质、创伤后应激障碍和焦虑症得分比图灵机或LSTM更好。

科学领域的基础模型：大气

微软的研究人员创建了Aurora，它是第一个预测大气化学（6种主要空气污染物，例如臭氧和一氧化碳），涉及数百个僵硬方程的模型，比数值模型更好。该模型也比使用数值预报的综合预报系统快5000倍。

四、2024年AI在医疗、机器人和企业自动化领域的应用与发展趋势

苹果Vision Pro成为必备的机器人研究工具

尽管消费者对Vision Pro的需求平淡无奇，但它在机器人研究领域引起了轰动，在那里其高分辨率、高级跟踪和处理能力被研究人员用于远程操作控制机器人的运动和动作。如Open-TeleVision和Bunny-Vision Pro使用它来帮助实现精确控制多指机械手（例如前者距离为3000英里），展示比以前的方法更复杂的任务的改进性能，如实时控制、通过碰撞避免的安全性和有效的双臂协调。

在医学中利用大模型生成合成数据

微调Stable Diffusion中的U-Net和CLIP文本编码器，从大量真实胸部X射线（CXR）及其相应的放射科医生报告中生成一个大型数据集，从而产生由权威放射科医生评估为高保真度和概念正确性的合成CXR扫描数据，并且生成的X射线图像可用于数据增强和自监督学习。

企业自动化获得人工智能后将优先升级

传统的机器人流程自动化 (RPA)，如 UiPath，面临着高昂的设置成本、脆弱的执行和繁重的维护。两个新颖的方法，FlowMind（JP Morgan）和 ECLAIR（斯坦福大学），使用基础模型来解决这些限制。FlowMind专注于金融工作流，通过API使用LLM来生成可执行的工作流。在对NCEN-QA 数据集进行实验时，FlowMind 在工作流理解方面达到了 99.5％的准确率。ECLAIR采取了更广泛的方法，使用多模态模型从演示中学习，并直接与各种企业环境中的图形用户界面交互。在网页导航任务上，ECLAIR将完成率提高了从0％到40％。

五、2024年，AI商业界都发生了什么事儿？

小编说明：在2024年，AI行业每天都在发生各种新鲜事，此报告中展示了特别多的行业消息，小编将摘选几个进行介绍。如果还想了解更多AI行业事儿，请关注本公众号的AI日报，持续更新中～

全球芯片出口管制下，中国仍成重要市场

美国商务部长吉娜·雷蒙多警告英伟达：“如果你围绕中国特定的需求重新设计芯片，我将在第二天控制它。”据悉，中国在美芯片制造商中所占的份额正在减少。据英伟达称，它从代表NVIDIA数据中心业务的20％下降到“中个位数”。尽管中国实验室在进口硬件方面受到限制，但其当地分支机构目前没有控制权。字节跳动通过美国的甲骨文租用NVIDIA H100访问权限，而阿里巴巴和腾讯则与NVIDIA就在美国建立自己的数据中心进行谈判。与此同时，谷歌和微软直接向中国大型企业推销他们的云服务。

模型变得更便宜了

以前认为提供强大模型的成本过高，但现在提供这些模型的推断成本正在下降。OpenAI更达到100倍下降！

Google Gemini生产了一种具有很强竞争力的定价系列！Gemini 1.5 Pro和1.5 Flash的价格在推出后几个月内下降了64%-86%，而性能强劲，例如Flash-8B比1.5 Flash贵50%，但在许多基准测试中表现相当。注意：价格适用于<128K令牌提示和输出。检索日期为2024年10月4日。

考虑到计算成本很高，模型构建者越来越依赖与大型科技公司建立合作伙伴关系。反垄断监管机构担心这将进一步巩固现有公司的地位

大型科技公司正在试图在自己和初创企业之间划清界限，微软和苹果自愿放弃了OpenAI董事会观察员席位。监管机构特别关注了OpenAI与微软之间的密切关系，以及Anthropic与谷歌和亚马逊的关系。监管机构担心，大型科技公司要么是实质上收购了竞争对手，要么是在为他们投资的公司提供友好的服务协议。

人工智能驱动的搜索开始出现成效，但同时存在一些问题

在成立的18个月内，AI搜索公司Perplexity达到了10亿美元估值，谷歌也不断在迭代更新Gemini的能力，但这两种服务都遇到了可靠性问题。Gemini 被发现使用讽刺性Reddit发帖作为建议来源，例如：建议用户每天吃一块石头，而Perplexity则与其他由LLM驱动的服务所面临的相同幻觉问题作斗争。OpenAI已经开始测试原型搜索功能——SearchGPT，最终将集成到ChatGPT中。虽然我们还不知道技术细节，但宣传图片暗示了类似于Perplexity的用户体验。

六、全球AI监管趋势：欧洲领先，中国跟进，美国加强控制

《欧盟人工智能法案》获得批准，正式生效

随着该法案的通过，欧洲成为世界上第一个全面采用人工智能监管框架的地区。执行将分阶段进行，对“不可接受的风险”（例如欺骗、社会评分）的禁令将于2025年2月生效。

美国大型实验室努力应对欧洲监管

欧盟人工智能法案和长期以来的《通用数据保护条例》（GDPR）对隐私和数据传输的要求相结合，使美国实验室难以适应其服务。Anthropic的Claude在2024年5月之前才向欧洲用户开放使用，而Meta 不会为欧洲客户提供多模态模型。与此同时，苹果公司正在反对欧盟的数字市场法案，声称其互操作性要求与它在隐私和安全方面的立场不兼容。因此，苹果公司推迟了在欧洲推出Apple Intelligence。

中国人工智能监管进入执行时代

我国是第一个开始制定生成式人工智能监管框架的国家，从2022年开始陆续出台全面指南，如今审查机构现在正在介入。我国持续生产SOTA模型，由国家互联网信息办公室监督。政府希望模型同时避免给政治问题提供“错误”的答案，在发布模型之前，必须提交其模型进行测试，以校准拒绝率。虽然禁止Hugging Face等国外网站访问，但官方批准的“主流价值观语料库”可以作为训练数据源。

美国对中国实施更严格的出口管制和投资限制

美国商务部发出了信函，要求美国制造商停止向我国半导体制造商进行最先进设施的销售。不仅如此，美国正在采取措施阻止或限制（包括半导体、国防、监控和音频、图像和视频识别）的中国初创企业的投资。美国不仅禁止了某些物品的出口，还在限制期限前向国际合作伙伴施压。这影响到了NVIDIA、Intel和ASML。

七、2024年人工智能发展状况：安全与全球治理

全球治理

英国创建了世界上第一个人工智能安全研究所，美国迅速跟进世界首个人工智能安全研究所AISA有三个核心功能：在部署前对高级模型进行评估；建立国家能力并开展研究；协调国际合作伙伴。AISA还发布了Inspect，一个用于LLM安全评估的框架，涵盖核心知识、推理能力和自主能力等方面。英国宣布与美国等效机构签署谅解备忘录，双方同意共同开发测试，并计划在美国旧金山设立办事处。

政府急于填补关键国家基础设施中的漏洞

英国通过其高级研究与发明机构（ARIA），花费了5900万英镑来开发一个“守门员”——一种先进的系统，负责了解和减少在能源、医疗保健和电信等关键领域中其他人工智能代理的风险。英国政府还报道称计划设立一个“AI安全研究实验室”，旨在汇集政府关于敌对国家使用进攻性AI的知识。美国能源部一直在利用其内部测试床评估人工智能可能对关键基础设施和能源安全带来的风险。

随着攻击面扩大，开发人员加大了对“越狱”的研究

随着AI不断发展，AI应用中的新功能带来新漏洞，现有企业，研究学者已加强对“越狱”的研究。OpenAI 提出了通过“指令层次结构”来修复“忽略所有先前指令“攻击的方法。这确保LLM不会为用户和开发人员的指令分配同等优先级。这已在 GPT-40 Mini中得到部署。Anthropic在多重越狱方面的工作表明了“警告防御”的潜力，它在前面和后面添加警告文本，以警示模型不要被越狱。与此同时，Gray Swan AI的安全专家已试用“断路器”。它不是试图检测攻击，而是专注于重新映射有害表示，这样模型要么拒绝遵守，要么产生不连贯的输出。他们发现这比标准拒绝训练效果更好。LLM测试初创公司Haize Labs 与 Hugging Face合作创建了首个红队抵抗组织基准。它汇编了常用的红队数据集并根据模型评估它们的成功率。同时，Scale 根据私人评估推出了自己的稳健性排行榜。除了越狱之外，还可能存在更隐蔽的攻击虽然越狱通常是安全挑战中早已公开的事实，但潜在的攻击面要广泛得多，涵盖从训练到偏好数据和微调的所有内容。例如伯克利和麻省理工学院的研究人员创建了一个看似无害的数据集，但它会训练模型响应编码请求产生有害输出。当应用于GPT-4时，该模型始终按照有害指令行事，同时避开常见的保护措施。

安全研究

LLM能否提高自身可靠性？

LLM 存在两个主要的可靠性错误：与其内部知识不一致的反应（幻觉）以及分享与既定的外部知识不一致的信息。牛津大学最近发表的一篇论文重点研究了幻觉的一个分支，即虚构症，其中LLM 产生了不正确的概括。他们通过生成一个问题的多个答案，并使用另一个模型根据相似的含义将它们分组来衡量LLM 不确定性。各组之间的熵值越高，则表明存在虚构行为。同时，Google DeepMind推出了SAFE，它通过将LLM 响应分解为单个事实、使用搜索引擎验证事实以及对语义相似的陈述进行聚类来评估LLM 响应的真实性。他们还策划了 LongFact，这是一个用于评估38个主题的长篇教员的新基准数据集。

LLM生成的批评是否可以提高准确性和一致性？

“法学硕士作为评判者”的概念依然存在，各大实验室已将其扩展到简单的产出评估之外。

OpenAI推出了CriticGPT，它使用基于大量有缺陷输入数据集进行训练的GPT式LLM来发现其他LLM 生成的代码中的错误。它在发现错误方面的表现优于现实承包商公司，并且在63%的时间里，其评论比人类撰写的评论更受欢迎。该系统还能够发现被标记为“完美无缺”的训练数据中的错误。

同时，Cohere还探索了使用LLM生成的评论可增强RLHF的奖励模型。他们使用一系列LLM为每个偏好数据对生成逐点评论，旨在让LLM评估提示完成对的有效性。他们发现，在较弱的基础模型中，或在低数据设置中，一个高质量的批评增强偏好对可以抵得上40个标准偏好对。

RLHF不会很快消失

由于先天优势和旨在提高效率的创新，离线直接比对方法看起来不会很快大规模取代RLHF。在涵盖总结、有用性、对话性等数据集上测试在线与离线方法能力和无害性，谷歌DeepMind团队发现RLHF在所有这些方面都胜出。他们认为这更有效地改善了生成任务，并且即使使用类似的数据或模型缩放，也不能轻易被离线算法复制。Cohere for AI已探索放弃近端策略优化RLHF中的算法（将每个token视为一个单独的动作），这有利于他们的RLOO（REINFORCE Leave One-Out）训练器，将整个生成作为一个动作，并在整个序列中分配奖励。他们发现这可以将GPU使用率降低50-75%，并将训练速度与PPO取决于模型大小。

但RLHF是否会滋生谄媚行为？

确保准确、诚实的回应对于协调至关重要。然而，研究表明，训练数据、优化技术的相互作用以及当前架构的局限性使得这一点难以保证。Anthropic将重点放在RLHF上，认为SOTA AI助手表现出一致的奉承行为（例如有偏见的反馈、被事实上错误的提示所左右、顺从信念、模仿错误）是因为人类偏好数据，人类评估者更喜欢支持性回应。但针对偏好模型进行优化，但这些模型不能充分优先考虑或准确评估真实性，这意味着他们降低使用其事实知识库进行某些查询的优先级。同样，国家情报中心的研究智利的Artificial发现，由于RHLF和缺乏对上下文的理解，法学硕士（LLM）会高估无意义或伪深刻陈述的深度。

开发透明度正在提高，但仍有很大的改进空间

在上一届SOAI发布后不久，斯坦福大学发布了其首个基础模型透明度指数，模型开发者的平均得分为37分。在团队的中期更新中，这一分数攀升至58分。2024年5月，该指数的最新一期基于100项指标，评估了14家领先的基础模型开发者的透明度，这些指标涵盖“上游”因素数据、劳动力、计算、围绕能力和风险的“模型级”因素、围绕分布的“下游”标准以及社会影响。计算和使用政策的评分出现了最强劲的改善，而“上游”评分仍然疲弱