OpenAI o1 发布：AI 学会"慢思考"了

发布时间：2024-09-13 08:00

标签：

OpenAI o1 推理模型

最后编辑：2024-09-13 08:00

全文大约 0 字（读完需 1 分钟）

OpenAI 昨晚发布了新的模型系列：o1。

这不是 GPT-5，但从某种意义上说，更接近 AGI。

o1 是什么

官方定位是"推理模型"（Reasoning Model）。

和 GPT-4 不同，o1 在回答前会先"思考"：

把问题分解成小步骤
尝试不同解法
验证中间结果
最后给出答案

这个过程会显示"正在思考..."，可能持续几秒到几分钟。

性能对比

测试项	o1-preview	GPT-4o	Claude 3.5 Sonnet
数学竞赛 (AIME)	83%	13.4%	-
代码竞赛 (Codeforces)	89 分位	11 分位	-
PhD 物理题	92%	65%	-

在需要深度思考的任务上，o1 远超其他模型。

实际使用

测试了几道编程题：

LeetCode 困难题

把题目描述给 o1，它会：

先分析问题类型（动态规划、图论...）
尝试几种思路
写出代码并解释

GPT-4 经常在困难题上翻车，o1 的正确率高很多。

数学证明

让它证明一个定理，它会一步步推导，而且能指出哪里需要用什么定理。

比直接给答案更有学习价值。

限制

速度慢：简单问题也要等几秒，复杂问题可能几分钟
价格贵：输入 $15/M tokens，输出 $60/M tokens，是 GPT-4 的 3-4 倍
不擅长闲聊：simple task 不如 GPT-4o 自然

o1 适合"难题"，日常对话用 GPT-4o 就够了。

谁应该用

刷算法题的同学
学数学/物理的学生
需要解决复杂逻辑问题的人

简单任务用 o1 浪费，复杂任务用 o1 真香。

总结

o1 证明了 AI 不只是"更快"，还可以"更深"。

虽然价格贵用不起，但这个方向让人对 AI 的未来更乐观了。

o1 是什么 ​

性能对比 ​

实际使用 ​

LeetCode 困难题 ​

数学证明 ​

限制 ​

谁应该用 ​

总结 ​