当前位置: 首页 > news >正文

长思维PRM

思维链

在这里插入图片描述
除了常见的连接词如 “and” 和 “so” 之外。还出现了"wait", Alternatively" 等特殊的关键词,"像 “wait” (表示反思)和 “Alternatively”(表示探索不同路径) 这样的关键词是模型能够进行反思和自我纠正的重要指标

  • 迭代式问题解决:模型首先定义函数,然后逐步探索相关表达式,将复杂方程分解为更简单的组成部分,反映了一种结构化和有条理的方法。
  • 关键思维指标:使用 “Therefore” 表示结论,“Alternatively” - 探索不同路径,“Wait” 表示反思,以及 “Let me compute” 过渡到计算,突出了模型的推理阶段。
  • 递归和反思方法:模型经常重新评估和验证中间结果,使用递归结构确保一致性,这在严谨的数学推理中很典型。
  • 假设探索:模型测试不同的假设,随着获得更多信息而调整其方法,展示了推理过程中的灵活性
  • 结论和验证:最后,模型解方程并验证结果,强调在完成之前验证结论的重要性。

PRM (过程奖励模型)

验证大模型结果的好坏,一般有两种不同的验证器:结果奖励模型 ORM 和过程奖励模型 PRM

ORM 目标函数

对于 ORM,给定一个数学问题和其解,ORM( Q*S=R)为分配一个单一实数值,已表明 是否正确。ORM 通常使用交叉熵损失进行训练:
在这里插入图片描述## 在这里插入图片描述

PRM 目标函数

在这里插入图片描述
PRM 训练数据
目前开源的主要是 OpenAI 2023 年基于 MATH 构建的样本 PRM800K,包含了 800K 个步骤级别的正确性标签,这些标签针对的是 MATH 数据集中问题的解决方案。另外一份数据是北京大学开源的数据集 Math-Shepherd,包含了 400k 个步骤级别的正确性标签,这些标签针对的是 MATH 和 GSM8K 数据集中问题的解决方案。需要强调的是,PRM800K 都是人工标注的,而 MATH-Shepherd 是机器标注的。

数据格式
{'question': 'Three pencils and a jumbo eraser cost $\\$1.24$. Five pencils and a jumbo eraser cost $\\$1.82$. No prices include tax. In cents, what is the cost of a pencil?','process': "Let's call the price of a pencil p and the price of a jumbo eraser e. Then we can write two equations. \n\n\n\n\n The first equation is $3p+e=124$. \n\n\n\n\n To solve this system, let's subtract the first equation from the second equation. This will eliminate e. \n\n\n\n\n $5p+e-3p-e=1.82-1.24$. \n\n\n\n\n This simplifies to $2p=0.58$. So $p=0.29$. \n\n\n\n\n We could also solve this system by substitution. \n\n\n\n\n",'label': ['+', '-', '+', '+', '+', '+']
}

http://www.mrgr.cn/news/60639.html

相关文章:

  • 例程学习(学习笔记)
  • 如何进行Appium实现移动端UI自动化测试
  • nacos安装与配置
  • Python 程序打包成 EXE 文件及相关操作详解
  • Linux系统下minio设置SSL证书进行HTTPS远程连接访问
  • aarch64-opencv341交叉编译,并在arm上部署helloopencv
  • 浅析Android View绘制过程中的Surface
  • 时间序列预测(十五)——有关Python项目框架的实例分析
  • 双十一买什么数码好物比较好?五大闭眼入的数码好物别错过!
  • 浅析Android中View的软件绘制流程
  • 【C++】How the C++ Compiler Works
  • Shiro 会话管理和加密
  • 溪源飨提高免疫力治未病:硒+辅酶Q10强力组合
  • numpy——数学运算
  • C++ vector
  • 西门子S7-200 SMART 多泵轮换功能库案例下载
  • 超子物联网HAL库笔记:准备篇
  • TypeScript 接口知识点详解
  • 多态的体现
  • 三维测量与建模笔记 - 2.1 坐标转换基础
  • redis学习路线和内容
  • 亿赛通与Ping32:数据安全领域的两大巨擘对比
  • 二十四、Python基础语法(变量进阶)
  • 计算机网络803-(5)运输层
  • 常见大气校正模型及6S模型安装部署【20241028】
  • 仓颉编程语言一