Skip to content

Claude 3 vs GPT-4:详细对比测试

发布时间:2024-03-15 08:00
最后编辑:2024-03-15 08:00
全文大约 0 字(读完需 1 分钟)

Claude 3 发布后,网上铺天盖地说它超越了 GPT-4。

作为两个模型的重度用户,我花了两周时间做了个相对系统的对比测试。

测试维度

  1. 代码生成与调试
  2. 长文本理解
  3. 逻辑推理
  4. 创意写作
  5. 中文能力

每个维度设计了 5 个测试用例,使用 Claude 3 Opus 和 GPT-4 Turbo。

代码能力

测试项Claude 3 OpusGPT-4 Turbo
算法实现⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Bug 定位⭐⭐⭐⭐⭐⭐⭐⭐⭐
代码解释⭐⭐⭐⭐⭐⭐⭐⭐⭐
重构建议⭐⭐⭐⭐⭐⭐⭐⭐

Claude 在代码解释上更详细,GPT-4 在复杂 bug 定位上更准。

长文本理解

这是 Claude 的强项。200k 上下文窗口真的能用。

测试了用整本《西游记》问细节问题,Claude 能准确回答第几回的内容。GPT-4 Turbo 的 128k 上下文在长度上有限制,而且定位精度不如 Claude。

逻辑推理

出乎意料,两者差距不大。

数学推理、逻辑链推导,两个模型水平接近。都会犯一些低级错误,但思路都能跟上。

创意写作

这个主观性强,我个人感受:

  • Claude 写的文章更有"人味",用词自然
  • GPT-4 更像标准的"AI 八股文",结构工整但有点死板

让两个都写博客文章,Claude 的版本直接能发,GPT-4 的要改改。

中文能力

GPT-4 在中文上还是更强,表达地道,不会有翻译腔。

Claude 的中文进步很多,但偶尔还是能看出"外国人学中文"的痕迹。

结论

没有绝对的赢家。

  • 选 Claude 3:长文档处理、创意写作、需要详细解释
  • 选 GPT-4:中文场景、复杂代码调试、多模态需求

我现在两个都订阅了,根据任务类型切换使用。

Built with ❤️ using VitePress v2 & Vue & Vite