当前位置：首页 > news >正文

Claude全面升级，我们试了一下，确实碾压OpenAI o1

news 2024/10/24 12:46:30

Claude又一次深夜狂炸，推出全新的Claude 3.5Sonnet 和Claude 3.5 Haiku。

下面我会给大家介绍一下基本信息，后续将对全新版本的Claude 3.5 Sonnet进行测评。

注：Claude 3.5 Haiku由于还未发布，暂不做评测。

据官方给出的测评结果我们不难看出此次Claude 3.5 Sonnet的性能进行了全面升级。在数学、研究生水平推理等能力整体超越GPT-4o。

而且在编程方面，升级过后的 Claude 3.5 Sonnet超越ChatGPT的o1模型。可事实真的是这样吗？

以下是我们对Claude 3.5 Sonnet的测评。我们将用最新的Claude 3.5 Sonnet和o1-pr模型在编程、数学、写作、经典问题上进行PK，看谁的效果更好一点。

对了，如果对o1模型和Claude有需要的朋友可以看这篇网站：使用Claude，看这篇文章就够了

编程题比对

首先，我们出一道经典的C语言编程难题。

不出意外，两者都答对了，而且答案极其的标准。

面对目前两个顶级的编程助手，常规的编程题肯定是难不倒它们，于是我们自制了一道博士级别的编程难题。

o1模型：

Claude：

是不是看起来一头雾水。的确，里面的知识已经不是我们所能接触到的了。

不过我们通过第三方知名教授的确认，他认为Claude生成的效果更加好。

出的原因是Claude的方案通过面向对象的设计提升了代码的可读性和维护性，并使用优先队列来优化调度，处理了量子计算中的关键挑战，并提供参数调整的灵活性，尽管在某些实现细节需要进一步验证，但它提供了有效解决复杂问题的路径。

所以这一局Claude胜。不愧是Claude，效果杠杠的！

数学题对比：

我们此次选择的是2024年阿里达摩院的比赛真题，看谁在数学领域上能领先一步。首先来一个简单的单选题。

o1模型：不过在第一局开头，o1模型就生成错误的答案！o1模型给出的答案是4。

Claude：反观升级过后的Claude 3.5 seneet轻轻松松就生成了准确的答案！

我还准备了第二道题目，同样也是阿里达摩院的数学竞赛题，不过，这次两者都回答准确了！

添加图片注释，不超过 140 字（可选）

选择题可能过于简单，下面我们来测试一下它们对证明题。同样，依旧是自达摩院的数学竞赛题，不过是此次的压轴题，我们可以看一下那个模型能回答出来！

o1模型：

Claude：

通过上述证明比较，会发现o1模型的效果更好，不仅证明结构更加系统化，同时，关键步骤更加的详细。更重要的是还引入了数学公式支持论证。所以这一局，o1模型胜！

经典问题

9.18比9.9谁大。对于这个问题，它们俩都回答出来了。

不过面对另外一个经典问题：草莓这个单词有多少个r？o1模型却翻车了。

写作能力上

此次写作能力的测试会比较简单，只需模仿某一个人的写作风格进行写作即可。

要求是不仅风格相似、语句通顺、而且要像人类写作一样！

首先，我们收集五篇”数字生命卡兹克“的文章，然后分别喂给ChatGPT和Claude，并让他们学习和模仿其写作风格。

最后会让ChatGPT和Claude在同一组提示词下写一篇公众号文章，看谁的效果更好。

o1模型：

Claude：

我只能说，Claude在写作方面完胜o1模型，大家可以清楚的看出，无论是写作风格，还是行文结构，效果都要远远超越o1模型。我最后只想说，最新版的Claude 3.5 Sonnet太强了！

http://www.mrgr.cn/news/57527.html

相关文章：

抖店自动售后系统

量化交易：最大回撤（Drawdown）算法

了解 .NET 8 中的定时任务或后台服务：IHostedService 和 BackgroundService

tomcat部署war包部署运行，IDEA一键运行启动tomacat服务，maven打包为war包并部署到tomecat

GB/T28181-2022规范解读、应用场景和技术实现探究

【android开发】android端部署yolov11-pose实现体测计数

vue3快速上手文档

如何使用Kali Linux系统，零基础入门到精通，收藏这一篇就够了

SPI通信协议

【正点原子K210连载】第四十八章自学习分类实验摘自【正点原子】DNK210使用指南-CanMV版指南

Dalvik汇编语言基础

照片水印怎么去掉？这4种图片去水印方法简单好用！

深入理解JWT（JSON Web Token）：身份验证与信息安全

ArcGIS 10.8 安装教程

【Ubuntu】Ubuntu22双网卡指定网关

大模型技术学习过程梳理，零基础入门到精通，收藏这一篇就够了

nginx配置文件详解

tesseract-ocr 文本识别开发指南

Vue2中几个目录

1024：只为遇见更好的自己

NumPy 与 Pandas 数据操作对比：从高效计算到灵活分析的转变

基于大模型的Milvus向量数据库的背景与实战应用，计算与索引机制，Python代码实现

如何在浏览器中打开预览pdf，而不是下载

基于neo4j的疫情信息管理系统

C# 委托简述

基于SSM健身国际俱乐部系统的设计