LLMs之Leaderboard:Chatbot Arena的简介、使用方法、案例应用之详细攻略
LLMs之Leaderboard:Chatbot Arena的简介、使用方法、案例应用之详细攻略
目录
Chatbot Arena的简介
1、数据来源
2、特点
3、对比评价
Chatbot Arena的使用方法
1、Arena (battle)竞技场-聊天机器人竞技场LLM排行榜
2、Arena (side-by-side)竞技场(并排比较
3、Direct Chat
4、Leaderboard
(1)、新功能:概览
(2)、竞技场(视觉)
(3)、竞技场-困难-自动
(4)、完整排行榜
Chatbot Arena的案例应用
Chatbot Arena的简介
Hugging Face Spaces 上的 “Chatbot Arena Leaderboard” 是由 lmarena-ai 创建的一个项目,其核心功能是提供一个排行榜,展示不同聊天机器人的性能排名。这是一个用于展示聊天机器人竞技排名结果的在线平台。它并非聊天机器人本身,而是对现有聊天机器人进行排名和比较的工具。
“Chatbot Arena Leaderboard” 是一个方便用户了解不同聊天机器人性能的实用工具,通过排行榜的形式直观地呈现排名结果,并拥有活跃的社区。
官网地址:https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard
2023年6月9日lmsys组织提出,对话评估(与人类偏好之间的一致性)—MT-Bench(多轮对话+0.3W专家投票)、Chatbot Arena(众包式对战平台+收集用户参的投票+3W人类偏好对话)
简介 | |
《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》 摘要:评估基于大型语言模型(LLM)的聊天助手具有挑战性,因为它们具有广泛的能力,并且现有的基准测试无法衡量人类偏好。为了解决这个问题,我们探讨了使用强大的LLM作为评判者,在更加开放的问题上评估这些模型。我们研究了LLM作为评判者的使用和局限性,包括位置、冗长度和自我增强偏见,以及有限的推理能力,并提出了一些缓解方法。然后,我们通过引入两个基准测试来验证LLM评判者与人类偏好之间的一致性:MT-bench,一个多轮问题集;以及Chatbot Arena,一个众包式对战平台。我们的结果显示,像GPT-4这样的强大LLM评判者可以很好地匹配受控和众包式的人类偏好,达到了80%以上的一致性,与人类之间的一致性水平相同。因此,LLM作为评判者是一种可扩展且可解释的方法,用于近似获取人类偏好,否则这将非常昂贵。此外,我们展示了我们的基准测试和传统基准测试互补,通过评估LLaMA和Vicuna的几个变种。我们将公开发布来自MT-bench问题、3,000个专家投票以及来自Chatbot Arena的30,000个包含人类偏好的对话。 《Chatbot Arena : Benchmarking LLMs in the Wild》 这个排行榜基于以下三个基准测试。 Chatbot Arena - 一个众包式、随机对战平台。我们使用50,000多个用户投票来计算Elo等级分。 MT-Bench - 一组具有挑战性的多轮问题。我们使用GPT-4来评分模型的回应。 MMLU (5-shot) - 一个测试,用来衡量模型在57项任务上的多任务准确性。 | |
地址 | 地址:https://arxiv.org/abs/2306.05685 排行榜地址:https://chat.lmsys.org/?arena |
时间 | 2023年6月9日 |
作者 | lmsys是由多家高校研究人员组成的开放研究组织,如UC伯克利、CMU等。 |
1、数据来源
该排行榜的数据来源是来自聊天机器人竞技场(Chatbot Arena)的比赛结果。 竞技场本身应该是一个对不同聊天机器人进行测试和比较的环境,但具体测试方法和标准并未在提供的文本中说明。
2、特点
>> 排行榜形式:以排行榜的形式直观地呈现不同聊天机器人的性能排名。
>> 实时更新(可能):“Refreshing” 字样暗示排行榜数据可能实时更新,反映最新的比赛结果。
>> 社区参与:“Community 58” 表明该项目可能拥有一个社区,用户可以参与讨论或贡献。
>> 受欢迎程度:“like 3.67k” 显示该项目在 Hugging Face Spaces 上获得了 3670 个赞,表明其受欢迎程度较高。
>> 基于Hugging Face Spaces:利用Hugging Face Spaces平台搭建,方便访问和使用。
3、对比评价
图表1:模型强度置信区间(通过引导法)
图表2:对所有其他模型的平均胜率(假设均匀抽样且无平局)
图表3:模型A在所有非平局A对B战斗中的胜率比例
图表4:每个模型组合的战斗次数(无平局)
Chatbot Arena的使用方法
在线使用地址:https://lmarena.ai/
1、Arena (battle)竞技场-聊天机器人竞技场LLM排行榜
>> 盲测:向两个匿名AI聊天机器人(ChatGPT、Gemini、Claude、Llama等)提出任何问题。
>> 投票选出最佳:选择最佳回应。你可以继续聊天,直到找到获胜者。
>> 公平竞争:如果AI身份被揭露,你的投票将不计入。
>> 新增图像支持:上传图像以解锁多模态竞技场!
2、Arena (side-by-side)竞技场(并排比较
>> 向两个选定的模型(例如,ChatGPT、Gemini、Claude、Llama)提出任何问题,并投票选出更好的一个!
>> 你可以进行多轮聊天,直到确定获胜者。
注意:每次对话只能使用一张图片。你可以上传小于15MB的图片。点击“随机示例”按钮,与随机图片进行聊天。
>> 为了研究目的,我们记录用户提示和图片,并可能在将来将此数据公开。请勿上传任何机密或个人信息。
3、Direct Chat
>> 为了研究目的,我们记录用户提示和图片,并可能在将来将此数据公开。请勿上传任何机密或个人信息。
注意:每次对话只能使用一张图片。你可以上传小于15MB的图片。点击“随机示例”按钮,与随机图片进行聊天。
4、Leaderboard
Chatbot Arena(lmarena.ai)是一个开源平台,用于通过人类偏好评估AI,由加州大学伯克利分校SkyLab和LMSYS的研究者开发。拥有超过100万用户投票,该平台使用Bradley-Terry模型对LLM和AI聊天机器人进行排名,生成实时排行榜。有关技术细节,请查看我们的论文。
在此笔记本中重现排行榜表格和图表的代码。你可以在lmarena.ai贡献你的投票!
*排名(UB):模型的排名(上限),由一个加上市面上统计上优于目标模型的模型数量定义。当模型A的下限分数大于模型B的上限分数(在95%置信区间内)时,模型A在统计上优于模型B。请参见下图1,了解模型分数置信区间的可视化。
排名(风格控制):考虑了如回应长度和markdown使用等因素的风格控制模型排名,以将模型性能与这些潜在的混杂变量分离。详见博客文章。
注意:在每一个类别中,我们排除了投票少于300的模型,因为它们的置信区间可能较大。
Chatbot Arena(总体)的更多统计数据
(1)、新功能:概览
(2)、竞技场(视觉)
(3)、竞技场-困难-自动
(4)、完整排行榜
Chatbot Arena的案例应用
持续更新中……