Skip to content
OpenAI o1 发布:AI 学会"慢思考"了
OpenAI 昨晚发布了新的模型系列:o1。
这不是 GPT-5,但从某种意义上说,更接近 AGI。
o1 是什么
官方定位是"推理模型"(Reasoning Model)。
和 GPT-4 不同,o1 在回答前会先"思考":
- 把问题分解成小步骤
- 尝试不同解法
- 验证中间结果
- 最后给出答案
这个过程会显示"正在思考...",可能持续几秒到几分钟。
性能对比
| 测试项 | o1-preview | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| 数学竞赛 (AIME) | 83% | 13.4% | - |
| 代码竞赛 (Codeforces) | 89 分位 | 11 分位 | - |
| PhD 物理题 | 92% | 65% | - |
在需要深度思考的任务上,o1 远超其他模型。
实际使用
测试了几道编程题:
LeetCode 困难题
把题目描述给 o1,它会:
- 先分析问题类型(动态规划、图论...)
- 尝试几种思路
- 写出代码并解释
GPT-4 经常在困难题上翻车,o1 的正确率高很多。
数学证明
让它证明一个定理,它会一步步推导,而且能指出哪里需要用什么定理。
比直接给答案更有学习价值。
限制
- 速度慢:简单问题也要等几秒,复杂问题可能几分钟
- 价格贵:输入 $15/M tokens,输出 $60/M tokens,是 GPT-4 的 3-4 倍
- 不擅长闲聊:simple task 不如 GPT-4o 自然
o1 适合"难题",日常对话用 GPT-4o 就够了。
谁应该用
- 刷算法题的同学
- 学数学/物理的学生
- 需要解决复杂逻辑问题的人
简单任务用 o1 浪费,复杂任务用 o1 真香。
总结
o1 证明了 AI 不只是"更快",还可以"更深"。
虽然价格贵用不起,但这个方向让人对 AI 的未来更乐观了。
