SimpleQA:OpenAI 开源评估大模型事实性的基准测试
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- SimpleQA 是 OpenAI 推出的用于评估大型语言模型回答事实性问题的基准测试。
- SimpleQA 包含 4326 个问题,每个问题只有一个正确答案,易于评分。
- SimpleQA 能评估模型的事实性回答能力和模型的“校准”程度。
正文(附运行示例)
SimpleQA 是什么
SimpleQA 是 OpenAI 推出的基准测试,用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA 包含 4326 个问题,每个问题设计为只有一个正确答案,易于评分。
SimpleQA 挑战性强,即使是最先进的大模型如 o1-preview 和 Claude Sonnet 3.5 的准确率也不到 50%。所有问题经过两位独立标注员验证,确保参考答案的准确性和时效性。
SimpleQA 能评估模型的事实性回答能力,能测量模型的“校准”程度,即模型对自己回答准确性的自我评估能力。SimpleQA 的数据集具有多样性,涵盖多个主题,包括历史、科学、艺术等,用在推动更可靠、可信赖的语言模型的发展。
SimpleQA 的主要功能
- 评估事实性回答能力: SimpleQA 主要用在测试语言模型回答简短、事实性问题的能力,问题设计为只有一个正确答案。
- 挑战性问题设计: 问题对抗性地收集,针对 GPT-4 等前沿模型,确保测试具有挑战性。
- 易于评分: 问题设计让答案易于评定,答案被分类为正确、错误或未尝试。
- 模型自我认知评估: 基于评估模型是否“知道自己知道什么”,衡量模型的自我认知能力。
- 校准测量: 测量模型对回答准确性的自信程度,即模型是否能准确评估自己的回答。
SimpleQA 的技术原理
- 数据收集与验证: 基于 AI 训练师创建问题和答案对,由另一名 AI 训练师独立验证答案,确保一致性。
- 高标准问题筛选: 问题必须满足特定标准,包括单一答案、答案随时间不变、有证据支持、具有挑战性,且截至 2023 年可回答。
- 质量控制: 用 ChatGPT 分类器检测违反标准的问题是提高问题质量的步骤之一。
- 多样性和覆盖: 基于 ChatGPT 分类问题主题和答案类型,确保数据集的多样性。
- 评分机制: 用提示的 ChatGPT 分类器对模型的回答进行评分,确定其是否正确、错误或未尝试。
- 性能评估: 比较模型在 SimpleQA 上的表现,评估其在事实性问题回答方面的能力。
- 校准评估: 询问模型对答案的置信度,且与实际准确性进行比较,评估模型的校准能力。
如何运行 SimpleQA
为了运行 SimpleQA,您需要安装一些依赖项并设置环境。以下是一些安装步骤和命令:
- 安装 HumanEval:
git clone https://github.com/openai/human-eval
pip install -e human-eval
- 安装 OpenAI API:
pip install openai
- 安装 Anthropic API:
pip install anthropic
- 设置 API 密钥环境变量:
export OPENAI_API_KEY='your_openai_api_key'
export ANTHROPIC_API_KEY='your_anthropic_api_key'
- 运行演示:
python -m simple-evals.demo
这将通过 OpenAI API 启动评估。
请注意,您需要替换'your_openai_api_key'
和'your_anthropic_api_key'
为您的实际 API 密钥。
资源
- 关注并回复公众号【57】或【SimpleQA】获取相关项目资源。
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦