Skip to content
Claude 3 vs GPT-4:详细对比测试
Claude 3 发布后,网上铺天盖地说它超越了 GPT-4。
作为两个模型的重度用户,我花了两周时间做了个相对系统的对比测试。
测试维度
- 代码生成与调试
- 长文本理解
- 逻辑推理
- 创意写作
- 中文能力
每个维度设计了 5 个测试用例,使用 Claude 3 Opus 和 GPT-4 Turbo。
代码能力
| 测试项 | Claude 3 Opus | GPT-4 Turbo |
|---|---|---|
| 算法实现 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Bug 定位 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 代码解释 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 重构建议 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
Claude 在代码解释上更详细,GPT-4 在复杂 bug 定位上更准。
长文本理解
这是 Claude 的强项。200k 上下文窗口真的能用。
测试了用整本《西游记》问细节问题,Claude 能准确回答第几回的内容。GPT-4 Turbo 的 128k 上下文在长度上有限制,而且定位精度不如 Claude。
逻辑推理
出乎意料,两者差距不大。
数学推理、逻辑链推导,两个模型水平接近。都会犯一些低级错误,但思路都能跟上。
创意写作
这个主观性强,我个人感受:
- Claude 写的文章更有"人味",用词自然
- GPT-4 更像标准的"AI 八股文",结构工整但有点死板
让两个都写博客文章,Claude 的版本直接能发,GPT-4 的要改改。
中文能力
GPT-4 在中文上还是更强,表达地道,不会有翻译腔。
Claude 的中文进步很多,但偶尔还是能看出"外国人学中文"的痕迹。
结论
没有绝对的赢家。
- 选 Claude 3:长文档处理、创意写作、需要详细解释
- 选 GPT-4:中文场景、复杂代码调试、多模态需求
我现在两个都订阅了,根据任务类型切换使用。
