Skip to content

OpenAI o1 发布:AI 学会"慢思考"了

发布时间:2024-09-13 08:00
最后编辑:2024-09-13 08:00
全文大约 0 字(读完需 1 分钟)

OpenAI 昨晚发布了新的模型系列:o1。

这不是 GPT-5,但从某种意义上说,更接近 AGI。

o1 是什么

官方定位是"推理模型"(Reasoning Model)。

和 GPT-4 不同,o1 在回答前会先"思考":

  1. 把问题分解成小步骤
  2. 尝试不同解法
  3. 验证中间结果
  4. 最后给出答案

这个过程会显示"正在思考...",可能持续几秒到几分钟。

性能对比

测试项o1-previewGPT-4oClaude 3.5 Sonnet
数学竞赛 (AIME)83%13.4%-
代码竞赛 (Codeforces)89 分位11 分位-
PhD 物理题92%65%-

在需要深度思考的任务上,o1 远超其他模型。

实际使用

测试了几道编程题:

LeetCode 困难题

把题目描述给 o1,它会:

  1. 先分析问题类型(动态规划、图论...)
  2. 尝试几种思路
  3. 写出代码并解释

GPT-4 经常在困难题上翻车,o1 的正确率高很多。

数学证明

让它证明一个定理,它会一步步推导,而且能指出哪里需要用什么定理。

比直接给答案更有学习价值。

限制

  1. 速度慢:简单问题也要等几秒,复杂问题可能几分钟
  2. 价格贵:输入 $15/M tokens,输出 $60/M tokens,是 GPT-4 的 3-4 倍
  3. 不擅长闲聊:simple task 不如 GPT-4o 自然

o1 适合"难题",日常对话用 GPT-4o 就够了。

谁应该用

  • 刷算法题的同学
  • 学数学/物理的学生
  • 需要解决复杂逻辑问题的人

简单任务用 o1 浪费,复杂任务用 o1 真香。

总结

o1 证明了 AI 不只是"更快",还可以"更深"。

虽然价格贵用不起,但这个方向让人对 AI 的未来更乐观了。

Built with ❤️ using VitePress v2 & Vue & Vite