当前位置: 首页 > news >正文

Claude全面升级,我们试了一下,确实碾压OpenAI o1

Claude又一次深夜狂炸,推出全新的Claude 3.5Sonnet 和Claude 3.5 Haiku。

下面我会给大家介绍一下基本信息,后续将对全新版本的Claude 3.5 Sonnet进行测评。

注:Claude 3.5 Haiku由于还未发布,暂不做评测。

据官方给出的测评结果我们不难看出此次Claude 3.5 Sonnet的性能进行了全面升级。 在数学、研究生水平推理等能力整体超越GPT-4o。

 

ed8088d6107374fb16097fd0a4ce729e.png

 

而且在编程方面,升级过后的 Claude 3.5 Sonnet超越ChatGPT的o1模型。 可事实真的是这样吗?

以下是我们对Claude 3.5 Sonnet的测评。 我们将用最新的Claude 3.5 Sonnet和o1-pr模型在编程、数学、写作、经典问题上进行PK,看谁的效果更好一点。

对了,如果对o1模型和Claude有需要的朋友可以看这篇网站:使用Claude,看这篇文章就够了

 

编程题比对

首先,我们出一道经典的C语言编程难题。

 

3a6f8de52eae5f389ba09d3db9e850b1.png

不出意外,两者都答对了,而且答案极其的标准。

 

43dbb0702a3f3abedb49c1a8a84f4673.png

面对目前两个顶级的编程助手,常规的编程题肯定是难不倒它们,于是我们自制了一道博士级别的编程难题。

 

bef4429ef680f2530a1ba04872c45ef4.png

o1模型:

 

afbe7159aead3b340517f8d4ad267e7e.png

 

Claude:

 

9556dfb18c242da1a8bf11e69e5cf5b3.png

 

是不是看起来一头雾水。的确,里面的知识已经不是我们所能接触到的了。

不过我们通过第三方知名教授的确认,他认为Claude生成的效果更加好。

出的原因是Claude的方案通过面向对象的设计提升了代码的可读性和维护性,并使用优先队列来优化调度,处理了量子计算中的关键挑战,并提供参数调整的灵活性,尽管在某些实现细节需要进一步验证,但它提供了有效解决复杂问题的路径。

所以这一局Claude胜。不愧是Claude,效果杠杠的!

 

8622e90ad8f3352b882bfefc8a7da02f.png

 

数学题对比:

我们此次选择的是2024年阿里达摩院的比赛真题,看谁在数学领域上能领先一步。 首先来一个简单的单选题。

 

244909dde9935aa14937888272bf9eec.png

 

o1模型: 不过在第一局开头,o1模型就生成错误的答案!o1模型给出的答案是4。

 

10a685a5e9f88f97305ba86ebf40f7bc.png

Claude: 反观升级过后的Claude 3.5 seneet轻轻松松就生成了准确的答案!

 

c9ed6317a791c7c36ea7eccd4f96f012.png

我还准备了第二道题目,同样也是阿里达摩院的数学竞赛题,不过,这次两者都回答准确了!

 

85eeabd5b1da0c518c724d19a94c6ba9.png

 

655b614e8bdad32dfe0d8b0c6f238c4f.png

添加图片注释,不超过 140 字(可选)

选择题可能过于简单,下面我们来测试一下它们对证明题。 同样,依旧是自达摩院的数学竞赛题,不过是此次的压轴题,我们可以看一下那个模型能回答出来!

 

e15995adebfcb3c936c56337c79d7028.png

o1模型:

 

f0b67d965d119397fd64efc31200e667.png

 

Claude:

 

31f0dd5b47069461a112793a3e9f6616.png

通过上述证明比较,会发现o1模型的效果更好,不仅证明结构更加系统化,同时,关键步骤更加的详细。更重要的是还引入了数学公式支持论证。所以这一局,o1模型胜!

 

经典问题

9.18比9.9谁大。 对于这个问题,它们俩都回答出来了。

 

af718958a9d1ddbf9cd91d9684837e75.png

 

e9d435d049a97199386df8f318ee69dd.png

 

不过面对另外一个经典问题:草莓这个单词有多少个r?o1模型却翻车了。

 

d560649f8908183f74e5b97e491b1ff3.png

 

 

567934f81ca6a99beac334b3c04a2678.png

 

写作能力上

此次写作能力的测试会比较简单,只需模仿某一个人的写作风格进行写作即可。

要求是不仅风格相似、语句通顺、而且要像人类写作一样!

首先,我们收集五篇”数字生命卡兹克“的文章,然后分别喂给ChatGPT和Claude,并让他们学习和模仿其写作风格。

最后会让ChatGPT和Claude在同一组提示词下写一篇公众号文章,看谁的效果更好。

o1模型:

 

f0b74e05f397e3f162737988cd9b896b.png

 

Claude:

 

f78eafd721c7db2113601b1244a306c4.png

 

我只能说,Claude在写作方面完胜o1模型,大家可以清楚的看出,无论是写作风格,还是行文结构,效果都要远远超越o1模型。 我最后只想说,最新版的Claude 3.5 Sonnet太强了!

 


http://www.mrgr.cn/news/57527.html

相关文章:

  • 抖店自动售后系统
  • 量化交易:最大回撤(Drawdown)算法
  • 了解 .NET 8 中的定时任务或后台服务:IHostedService 和 BackgroundService
  • tomcat部署war包部署运行,IDEA一键运行启动tomacat服务,maven打包为war包并部署到tomecat
  • GB/T28181-2022规范解读、应用场景和技术实现探究
  • 【android开发】android端部署yolov11-pose实现体测计数
  • vue3快速上手文档
  • 如何使用Kali Linux系统,零基础入门到精通,收藏这一篇就够了
  • SPI通信协议
  • 【正点原子K210连载】第四十八章 自学习分类实验 摘自【正点原子】DNK210使用指南-CanMV版指南
  • Dalvik汇编语言基础
  • 照片水印怎么去掉?这4种图片去水印方法简单好用!
  • 深入理解JWT(JSON Web Token):身份验证与信息安全
  • ArcGIS 10.8 安装教程
  • 【Ubuntu】Ubuntu22双网卡指定网关
  • 大模型技术学习过程梳理,零基础入门到精通,收藏这一篇就够了
  • nginx配置文件详解
  • tesseract-ocr 文本识别开发指南
  • Vue2中几个目录
  • 1024:只为遇见更好的自己
  • NumPy 与 Pandas 数据操作对比:从高效计算到灵活分析的转变
  • 基于大模型的Milvus向量数据库的背景与实战应用,计算与索引机制,Python代码实现
  • 如何在浏览器中打开预览pdf,而不是下载
  • 基于neo4j的疫情信息管理系统
  • C# 委托简述
  • 基于SSM健身国际俱乐部系统的设计