Claude 3 vs GPT-4：详细对比测试

发布时间：2024-03-15 08:00

标签：

最后编辑：2024-03-15 08:00

全文大约 0 字（读完需 1 分钟）

Claude 3 发布后，网上铺天盖地说它超越了 GPT-4。

作为两个模型的重度用户，我花了两周时间做了个相对系统的对比测试。

测试维度

每个维度设计了 5 个测试用例，使用 Claude 3 Opus 和 GPT-4 Turbo。

Claude 在代码解释上更详细，GPT-4 在复杂 bug 定位上更准。

这是 Claude 的强项。200k 上下文窗口真的能用。

测试了用整本《西游记》问细节问题，Claude 能准确回答第几回的内容。GPT-4 Turbo 的 128k 上下文在长度上有限制，而且定位精度不如 Claude。

出乎意料，两者差距不大。

数学推理、逻辑链推导，两个模型水平接近。都会犯一些低级错误，但思路都能跟上。

这个主观性强，我个人感受：

让两个都写博客文章，Claude 的版本直接能发，GPT-4 的要改改。

GPT-4 在中文上还是更强，表达地道，不会有翻译腔。

Claude 的中文进步很多，但偶尔还是能看出"外国人学中文"的痕迹。

没有绝对的赢家。

我现在两个都订阅了，根据任务类型切换使用。