当初对 GPT-5 的预测，现在回头看看

发布时间：2024-04-15 08:00

标签：

最后编辑：2024-04-15 08:00

全文大约 0 字（读完需 1 分钟）

去年这个时候，我和很多人一样，满怀期待地等 GPT-5。

当时还专门写了一篇预测文章（就是你现在看到的这篇，我直接在原文上改了）。回头看，有些猜对了，有些纯属想多了。

当时的预测

我当时猜了三个方向：

现在一个一个看。

GPT-4o 确实做到了多模态，而且做得比我预想的更激进——实时语音对话、看摄像头、读屏幕截图。

不过视频生成是 Sora 在做，并没有集成到 GPT 里面。我当时把"理解"和"生成"混在一起说了，其实是两回事。

GPT-4 Turbo 做到了 128K，Gemini 做到了百万级别。方向没猜错。

但我当时没预到的是，长上下文更多是被国产模型（Kimi、DeepSeek）当成竞争差异点来推的。OpenAI 反而不怎么强调这个。

这个是我最没想到的。

我以为 GPT-5 会是 GPT-4 的"更聪明版"，就是同一个架构参数更大、数据更多。

结果 OpenAI 搞出了 o1 这种完全不同的模式——让模型"慢思考"，用更多的计算换更高的推理准确率。

GPT-5 到现在也没发布，反而是 o1、o3 这条路线成了主力。

列几个完全没预料到的：

AI Agent 方向的爆发：Claude 的 Computer Use、各种 AI 编程助手（Cursor、Windsurf），Agent 成了新战场
开源模型追上来了：Llama 3.1 405B、DeepSeek V3，开源和闭源的差距在急速缩小
Scaling Law 的争议：原来以为模型越大越强是铁律，现在发现不一定，o1 的路线说明巧妙的架构设计可能比暴力堆参数更有效

做预测很难，尤其是 AI 领域，三个月就能换一次天地。

但写预测文章有个好处：过段时间回来看，能发现自己当时的认知盲区。比如我当时完全没有"推理可以用慢思考换准确率"这个概念，说明我对 AI 的理解还停留在"大模型 = 大参数"的阶段。

下次再做预测，可能会谦虚一点。

也可能不会。