当前位置：首页 > news >正文

LLMs之Leaderboard：Chatbot Arena的简介、使用方法、案例应用之详细攻略

news 2025/4/26 18:25:41

Chatbot Arena的简介

1、数据来源

2、特点

3、对比评价

Chatbot Arena的使用方法

1、Arena (battle)竞技场-聊天机器人竞技场LLM排行榜

2、Arena (side-by-side)竞技场（并排比较

3、Direct Chat

4、Leaderboard

(1)、新功能：概览

(2)、竞技场（视觉）

(3)、竞技场-困难-自动

(4)、完整排行榜

Chatbot Arena的案例应用

Chatbot Arena的简介

Hugging Face Spaces 上的 “Chatbot Arena Leaderboard” 是由 lmarena-ai 创建的一个项目，其核心功能是提供一个排行榜，展示不同聊天机器人的性能排名。这是一个用于展示聊天机器人竞技排名结果的在线平台。它并非聊天机器人本身，而是对现有聊天机器人进行排名和比较的工具。

“Chatbot Arena Leaderboard” 是一个方便用户了解不同聊天机器人性能的实用工具，通过排行榜的形式直观地呈现排名结果，并拥有活跃的社区。

官网地址：https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard

2023年6月9日lmsys组织提出，对话评估(与人类偏好之间的一致性)—MT-Bench(多轮对话+0.3W专家投票)、Chatbot Arena(众包式对战平台+收集用户参的投票+3W人类偏好对话)

简介
简介	《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》摘要：评估基于大型语言模型（LLM）的聊天助手具有挑战性，因为它们具有广泛的能力，并且现有的基准测试无法衡量人类偏好。为了解决这个问题，我们探讨了使用强大的LLM作为评判者，在更加开放的问题上评估这些模型。我们研究了LLM作为评判者的使用和局限性，包括位置、冗长度和自我增强偏见，以及有限的推理能力，并提出了一些缓解方法。然后，我们通过引入两个基准测试来验证LLM评判者与人类偏好之间的一致性：MT-bench，一个多轮问题集；以及Chatbot Arena，一个众包式对战平台。我们的结果显示，像GPT-4这样的强大LLM评判者可以很好地匹配受控和众包式的人类偏好，达到了80%以上的一致性，与人类之间的一致性水平相同。因此，LLM作为评判者是一种可扩展且可解释的方法，用于近似获取人类偏好，否则这将非常昂贵。此外，我们展示了我们的基准测试和传统基准测试互补，通过评估LLaMA和Vicuna的几个变种。我们将公开发布来自MT-bench问题、3,000个专家投票以及来自Chatbot Arena的30,000个包含人类偏好的对话。《Chatbot Arena : Benchmarking LLMs in the Wild》这个排行榜基于以下三个基准测试。 Chatbot Arena - 一个众包式、随机对战平台。我们使用50,000多个用户投票来计算Elo等级分。 MT-Bench - 一组具有挑战性的多轮问题。我们使用GPT-4来评分模型的回应。 MMLU (5-shot) - 一个测试，用来衡量模型在57项任务上的多任务准确性。
地址	地址：https://arxiv.org/abs/2306.05685 排行榜地址：https://chat.lmsys.org/?arena
时间	2023年6月9日
作者	lmsys是由多家高校研究人员组成的开放研究组织，如UC伯克利、CMU等。

1、数据来源

该排行榜的数据来源是来自聊天机器人竞技场（Chatbot Arena）的比赛结果。竞技场本身应该是一个对不同聊天机器人进行测试和比较的环境，但具体测试方法和标准并未在提供的文本中说明。

2、特点

>> 排行榜形式：以排行榜的形式直观地呈现不同聊天机器人的性能排名。

>> 实时更新（可能）：“Refreshing” 字样暗示排行榜数据可能实时更新，反映最新的比赛结果。

>> 社区参与：“Community 58” 表明该项目可能拥有一个社区，用户可以参与讨论或贡献。

>> 受欢迎程度：“like 3.67k” 显示该项目在 Hugging Face Spaces 上获得了 3670 个赞，表明其受欢迎程度较高。

>> 基于Hugging Face Spaces：利用Hugging Face Spaces平台搭建，方便访问和使用。

3、对比评价

图表1：模型强度置信区间（通过引导法）

图表2：对所有其他模型的平均胜率（假设均匀抽样且无平局）

图表3：模型A在所有非平局A对B战斗中的胜率比例

图表4：每个模型组合的战斗次数（无平局）

Chatbot Arena的使用方法

在线使用地址：https://lmarena.ai/

1、Arena (battle)竞技场-聊天机器人竞技场LLM排行榜

>> 盲测：向两个匿名AI聊天机器人（ChatGPT、Gemini、Claude、Llama等）提出任何问题。
>> 投票选出最佳：选择最佳回应。你可以继续聊天，直到找到获胜者。
>> 公平竞争：如果AI身份被揭露，你的投票将不计入。
>> 新增图像支持：上传图像以解锁多模态竞技场！

2、Arena (side-by-side)竞技场（并排比较

>> 向两个选定的模型（例如，ChatGPT、Gemini、Claude、Llama）提出任何问题，并投票选出更好的一个！
>> 你可以进行多轮聊天，直到确定获胜者。
注意：每次对话只能使用一张图片。你可以上传小于15MB的图片。点击“随机示例”按钮，与随机图片进行聊天。
>> 为了研究目的，我们记录用户提示和图片，并可能在将来将此数据公开。请勿上传任何机密或个人信息。