当前位置: 首页 > news >正文

LLMs之Leaderboard:Chatbot Arena的简介、使用方法、案例应用之详细攻略

LLMs之Leaderboard:Chatbot Arena的简介、使用方法、案例应用之详细攻略

目录

Chatbot Arena的简介

1、数据来源

2、特点

3、对比评价

Chatbot Arena的使用方法

1、Arena (battle)竞技场-聊天机器人竞技场LLM排行榜

2、Arena (side-by-side)竞技场(并排比较

3、Direct Chat

4、Leaderboard

(1)、新功能:概览

(2)、竞技场(视觉)

(3)、竞技场-困难-自动

(4)、完整排行榜

Chatbot Arena的案例应用


Chatbot Arena的简介

Hugging Face Spaces 上的 “Chatbot Arena Leaderboard” 是由 lmarena-ai 创建的一个项目,其核心功能是提供一个排行榜,展示不同聊天机器人的性能排名。这是一个用于展示聊天机器人竞技排名结果的在线平台。它并非聊天机器人本身,而是对现有聊天机器人进行排名和比较的工具。

“Chatbot Arena Leaderboard” 是一个方便用户了解不同聊天机器人性能的实用工具,通过排行榜的形式直观地呈现排名结果,并拥有活跃的社区。

官网地址:https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard

 2023年6月9日lmsys组织提出,对话评估(与人类偏好之间的一致性)—MT-Bench(多轮对话+0.3W专家投票)、Chatbot Arena(众包式对战平台+收集用户参的投票+3W人类偏好对话)

简介

《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》

摘要:评估基于大型语言模型(LLM)的聊天助手具有挑战性,因为它们具有广泛的能力,并且现有的基准测试无法衡量人类偏好。为了解决这个问题,我们探讨了使用强大的LLM作为评判者,在更加开放的问题上评估这些模型。我们研究了LLM作为评判者的使用和局限性,包括位置、冗长度和自我增强偏见,以及有限的推理能力,并提出了一些缓解方法。然后,我们通过引入两个基准测试来验证LLM评判者与人类偏好之间的一致性:MT-bench,一个多轮问题集;以及Chatbot Arena,一个众包式对战平台。我们的结果显示,像GPT-4这样的强大LLM评判者可以很好地匹配受控和众包式的人类偏好,达到了80%以上的一致性,与人类之间的一致性水平相同。因此,LLM作为评判者是一种可扩展且可解释的方法,用于近似获取人类偏好,否则这将非常昂贵。此外,我们展示了我们的基准测试和传统基准测试互补,通过评估LLaMA和Vicuna的几个变种。我们将公开发布来自MT-bench问题、3,000个专家投票以及来自Chatbot Arena的30,000个包含人类偏好的对话。

《Chatbot Arena : Benchmarking LLMs in the Wild》

这个排行榜基于以下三个基准测试。

Chatbot Arena - 一个众包式、随机对战平台。我们使用50,000多个用户投票来计算Elo等级分。

MT-Bench - 一组具有挑战性的多轮问题。我们使用GPT-4来评分模型的回应。

MMLU (5-shot) - 一个测试,用来衡量模型在57项任务上的多任务准确性。

地址

地址:https://arxiv.org/abs/2306.05685

排行榜地址:https://chat.lmsys.org/?arena

时间

2023年6月9日

作者

lmsys是由多家高校研究人员组成的开放研究组织,如UC伯克利、CMU等。

1、数据来源

该排行榜的数据来源是来自聊天机器人竞技场(Chatbot Arena)的比赛结果。 竞技场本身应该是一个对不同聊天机器人进行测试和比较的环境,但具体测试方法和标准并未在提供的文本中说明。

2、特点

>> 排行榜形式:以排行榜的形式直观地呈现不同聊天机器人的性能排名。

>> 实时更新(可能):“Refreshing” 字样暗示排行榜数据可能实时更新,反映最新的比赛结果。

>> 社区参与:“Community 58” 表明该项目可能拥有一个社区,用户可以参与讨论或贡献。

>> 受欢迎程度:“like 3.67k” 显示该项目在 Hugging Face Spaces 上获得了 3670 个赞,表明其受欢迎程度较高。

>> 基于Hugging Face Spaces:利用Hugging Face Spaces平台搭建,方便访问和使用。

3、对比评价

图表1:模型强度置信区间(通过引导法)

图表2:对所有其他模型的平均胜率(假设均匀抽样且无平局)

图表3:模型A在所有非平局A对B战斗中的胜率比例

图表4:每个模型组合的战斗次数(无平局)

Chatbot Arena的使用方法

在线使用地址:https://lmarena.ai/

1、Arena (battle)竞技场-聊天机器人竞技场LLM排行榜

>> 盲测:向两个匿名AI聊天机器人(ChatGPT、Gemini、Claude、Llama等)提出任何问题。
>> 投票选出最佳:选择最佳回应。你可以继续聊天,直到找到获胜者。
>> 公平竞争:如果AI身份被揭露,你的投票将不计入。
>> 新增图像支持:上传图像以解锁多模态竞技场!

2、Arena (side-by-side)竞技场(并排比较

>> 向两个选定的模型(例如,ChatGPT、Gemini、Claude、Llama)提出任何问题,并投票选出更好的一个!
>> 你可以进行多轮聊天,直到确定获胜者。
注意:每次对话只能使用一张图片。你可以上传小于15MB的图片。点击“随机示例”按钮,与随机图片进行聊天。
>> 为了研究目的,我们记录用户提示和图片,并可能在将来将此数据公开。请勿上传任何机密或个人信息。

3、Direct Chat

>> 为了研究目的,我们记录用户提示和图片,并可能在将来将此数据公开。请勿上传任何机密或个人信息。
注意:每次对话只能使用一张图片。你可以上传小于15MB的图片。点击“随机示例”按钮,与随机图片进行聊天。

4、Leaderboard

Chatbot Arena(lmarena.ai)是一个开源平台,用于通过人类偏好评估AI,由加州大学伯克利分校SkyLab和LMSYS的研究者开发。拥有超过100万用户投票,该平台使用Bradley-Terry模型对LLM和AI聊天机器人进行排名,生成实时排行榜。有关技术细节,请查看我们的论文。

在此笔记本中重现排行榜表格和图表的代码。你可以在lmarena.ai贡献你的投票!

*排名(UB):模型的排名(上限),由一个加上市面上统计上优于目标模型的模型数量定义。当模型A的下限分数大于模型B的上限分数(在95%置信区间内)时,模型A在统计上优于模型B。请参见下图1,了解模型分数置信区间的可视化。

排名(风格控制):考虑了如回应长度和markdown使用等因素的风格控制模型排名,以将模型性能与这些潜在的混杂变量分离。详见博客文章。

注意:在每一个类别中,我们排除了投票少于300的模型,因为它们的置信区间可能较大。

Chatbot Arena(总体)的更多统计数据

(1)、新功能:概览

(2)、竞技场(视觉)

(3)、竞技场-困难-自动

(4)、完整排行榜

Chatbot Arena的案例应用

持续更新中……


http://www.mrgr.cn/news/67348.html

相关文章:

  • 【梯度提升专题】XGBoost、Adaboost、CatBoost预测合集:抗乳腺癌药物优化、信贷风控、比特币应用|附数据代码
  • kafka 安装和使用
  • C#-类:声明类、声明类对象
  • 2024-11-04 问AI: [AI面试题] 解释计算机视觉的概念
  • Flutter UI架构(3)
  • gRPC-拦截器
  • SIwave:释放 TDR(时域反射计)向导的强大功能
  • C++ | Leetcode C++题解之第543题二叉树的直径
  • 【1个月速成Java】基于Android平台开发个人记账app学习日记——第8天,完成注册登录并保存到数据库
  • GEE 使用 JavaScript 中的 API 自动删除文件夹内的所有资产
  • verilog-HDL基础
  • 超实惠的租借服务器训练深度学习方法
  • Renesas R7FA8D1BH (Cortex®-M85) 存储空间介绍
  • C语言 | Leetcode C语言题解之第543题二叉树的直径
  • SIwave:释放信号网络分析仪的强大功能
  • 使用AMD GPU进行图像分类的ResNet模型
  • ArcGIS006:ArcMap常用操作151-200例动图演示
  • 龙芯交叉编译openssl
  • Scala的包及其导入
  • Renesas R7FA8D1BH (Cortex®-M85) Flash的功能介绍
  • 【LeetCode】【算法】155. 最小栈
  • 11.6日志
  • RTMP推流H264和AAC
  • 计算机网络综合题
  • 【c++语言程序设计】字符串与浅层复制(深拷贝与浅拷贝)
  • jenkins流水线pipeline