当前位置: 首页 > news >正文

SimpleQA:OpenAI 开源评估大模型事实性的基准测试

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. SimpleQA 是 OpenAI 推出的用于评估大型语言模型回答事实性问题的基准测试。
  2. SimpleQA 包含 4326 个问题,每个问题只有一个正确答案,易于评分。
  3. SimpleQA 能评估模型的事实性回答能力和模型的“校准”程度。

正文(附运行示例)

SimpleQA 是什么

在这里插入图片描述

SimpleQA 是 OpenAI 推出的基准测试,用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA 包含 4326 个问题,每个问题设计为只有一个正确答案,易于评分。

SimpleQA 挑战性强,即使是最先进的大模型如 o1-preview 和 Claude Sonnet 3.5 的准确率也不到 50%。所有问题经过两位独立标注员验证,确保参考答案的准确性和时效性。

SimpleQA 能评估模型的事实性回答能力,能测量模型的“校准”程度,即模型对自己回答准确性的自我评估能力。SimpleQA 的数据集具有多样性,涵盖多个主题,包括历史、科学、艺术等,用在推动更可靠、可信赖的语言模型的发展。

SimpleQA 的主要功能

  • 评估事实性回答能力: SimpleQA 主要用在测试语言模型回答简短、事实性问题的能力,问题设计为只有一个正确答案。
  • 挑战性问题设计: 问题对抗性地收集,针对 GPT-4 等前沿模型,确保测试具有挑战性。
  • 易于评分: 问题设计让答案易于评定,答案被分类为正确、错误或未尝试。
  • 模型自我认知评估: 基于评估模型是否“知道自己知道什么”,衡量模型的自我认知能力。
  • 校准测量: 测量模型对回答准确性的自信程度,即模型是否能准确评估自己的回答。

SimpleQA 的技术原理

  • 数据收集与验证: 基于 AI 训练师创建问题和答案对,由另一名 AI 训练师独立验证答案,确保一致性。
  • 高标准问题筛选: 问题必须满足特定标准,包括单一答案、答案随时间不变、有证据支持、具有挑战性,且截至 2023 年可回答。
  • 质量控制: 用 ChatGPT 分类器检测违反标准的问题是提高问题质量的步骤之一。
  • 多样性和覆盖: 基于 ChatGPT 分类问题主题和答案类型,确保数据集的多样性。
  • 评分机制: 用提示的 ChatGPT 分类器对模型的回答进行评分,确定其是否正确、错误或未尝试。
  • 性能评估: 比较模型在 SimpleQA 上的表现,评估其在事实性问题回答方面的能力。
  • 校准评估: 询问模型对答案的置信度,且与实际准确性进行比较,评估模型的校准能力。

如何运行 SimpleQA

为了运行 SimpleQA,您需要安装一些依赖项并设置环境。以下是一些安装步骤和命令:

  1. 安装 HumanEval:
git clone https://github.com/openai/human-eval
pip install -e human-eval
  1. 安装 OpenAI API:
pip install openai
  1. 安装 Anthropic API:
pip install anthropic
  1. 设置 API 密钥环境变量:
export OPENAI_API_KEY='your_openai_api_key'
export ANTHROPIC_API_KEY='your_anthropic_api_key'
  1. 运行演示:
python -m simple-evals.demo

这将通过 OpenAI API 启动评估。

请注意,您需要替换'your_openai_api_key''your_anthropic_api_key'为您的实际 API 密钥。

资源

  • 关注并回复公众号【57】或【SimpleQA】获取相关项目资源。

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


http://www.mrgr.cn/news/62869.html

相关文章:

  • 【AI时代】普通程序员想投身AI大模型行业,该如何快速入局
  • 鸿道Intewell Developer介绍
  • 力扣每日一题 3165. 不包含相邻元素的子序列的最大和
  • Netron:神经网络模型可视化工具指南【全网最详细】
  • 医院信息化与智能化系统(10)
  • 哈希——哈希表处理哈希冲突的方法
  • 多浏览器同步测试工具的设计与实现
  • 同事离职了,他写的代码我找不到了?咋办呢
  • GitGraphPro 图管理系统
  • vivado-vitis-2024.1 ps_hello_world 实验
  • 递归的使用
  • spark==windows启动spark集群
  • [java][高级]RequestResponse
  • 【实战篇】requests库 - 有道云翻译爬虫 【附:代理IP的使用】
  • 【算法】【优选算法】双指针(上)
  • Qt(文件IO)
  • Spring Boot 集成 RabbitMQ
  • Java阶段三02
  • Q-learning原理及代码实现
  • ubuntu交叉编译libffi库给arm平台使用
  • 【力扣打卡系列】二叉树的最近公共祖先
  • 2024最新Linkedln领英养号方法总结
  • 【数学二】线性代数-行列式
  • 早点包子店点餐的软件下载和点餐操作教程 佳易王餐饮点餐管理系统操作方法
  • redis安装使用
  • 攻防世界 MISC miao~详解