当前位置：首页 > news >正文

SimpleQA：OpenAI 开源评估大模型事实性的基准测试

news 2025/4/4 10:51:15

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

SimpleQA 是 OpenAI 推出的用于评估大型语言模型回答事实性问题的基准测试。
SimpleQA 包含 4326 个问题，每个问题只有一个正确答案，易于评分。
SimpleQA 能评估模型的事实性回答能力和模型的“校准”程度。

正文（附运行示例）

SimpleQA 是什么

在这里插入图片描述

SimpleQA 是 OpenAI 推出的基准测试，用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA 包含 4326 个问题，每个问题设计为只有一个正确答案，易于评分。

SimpleQA 挑战性强，即使是最先进的大模型如 o1-preview 和 Claude Sonnet 3.5 的准确率也不到 50%。所有问题经过两位独立标注员验证，确保参考答案的准确性和时效性。

SimpleQA 能评估模型的事实性回答能力，能测量模型的“校准”程度，即模型对自己回答准确性的自我评估能力。SimpleQA 的数据集具有多样性，涵盖多个主题，包括历史、科学、艺术等，用在推动更可靠、可信赖的语言模型的发展。

SimpleQA 的主要功能

评估事实性回答能力： SimpleQA 主要用在测试语言模型回答简短、事实性问题的能力，问题设计为只有一个正确答案。
挑战性问题设计： 问题对抗性地收集，针对 GPT-4 等前沿模型，确保测试具有挑战性。
易于评分： 问题设计让答案易于评定，答案被分类为正确、错误或未尝试。
模型自我认知评估： 基于评估模型是否“知道自己知道什么”，衡量模型的自我认知能力。
校准测量： 测量模型对回答准确性的自信程度，即模型是否能准确评估自己的回答。

SimpleQA 的技术原理

数据收集与验证： 基于 AI 训练师创建问题和答案对，由另一名 AI 训练师独立验证答案，确保一致性。
高标准问题筛选： 问题必须满足特定标准，包括单一答案、答案随时间不变、有证据支持、具有挑战性，且截至 2023 年可回答。
质量控制： 用 ChatGPT 分类器检测违反标准的问题是提高问题质量的步骤之一。
多样性和覆盖： 基于 ChatGPT 分类问题主题和答案类型，确保数据集的多样性。
评分机制： 用提示的 ChatGPT 分类器对模型的回答进行评分，确定其是否正确、错误或未尝试。
性能评估： 比较模型在 SimpleQA 上的表现，评估其在事实性问题回答方面的能力。
校准评估： 询问模型对答案的置信度，且与实际准确性进行比较，评估模型的校准能力。

如何运行 SimpleQA

为了运行 SimpleQA，您需要安装一些依赖项并设置环境。以下是一些安装步骤和命令：

安装 HumanEval：

git clone https://github.com/openai/human-eval
pip install -e human-eval

安装 OpenAI API：

pip install openai

安装 Anthropic API：

pip install anthropic

设置 API 密钥环境变量：

export OPENAI_API_KEY='your_openai_api_key'
export ANTHROPIC_API_KEY='your_anthropic_api_key'

运行演示：

python -m simple-evals.demo

这将通过 OpenAI API 启动评估。

请注意，您需要替换'your_openai_api_key'和'your_anthropic_api_key'为您的实际 API 密钥。

资源

关注并回复公众号【57】或【SimpleQA】获取相关项目资源。

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

查看全文

http://www.mrgr.cn/news/62869.html

多浏览器同步测试工具的设计与实现

同事离职了，他写的代码我找不到了？咋办呢

GitGraphPro 图管理系统

vivado-vitis-2024.1 ps_hello_world 实验

递归的使用

spark==windows启动spark集群

[java][高级]RequestResponse

【实战篇】requests库 - 有道云翻译爬虫【附：代理IP的使用】

【算法】【优选算法】双指针（上）

Qt（文件IO）

Spring Boot 集成 RabbitMQ

Java阶段三02

Q-learning原理及代码实现

ubuntu交叉编译libffi库给arm平台使用

【力扣打卡系列】二叉树的最近公共祖先

2024最新Linkedln领英养号方法总结

【数学二】线性代数-行列式

早点包子店点餐的软件下载和点餐操作教程佳易王餐饮点餐管理系统操作方法

redis安装使用

攻防世界 MISC miao~详解