Skip to content

当初对 GPT-5 的预测,现在回头看看

发布时间:2024-04-15 08:00
最后编辑:2024-04-15 08:00
全文大约 0 字(读完需 1 分钟)

去年这个时候,我和很多人一样,满怀期待地等 GPT-5。

当时还专门写了一篇预测文章(就是你现在看到的这篇,我直接在原文上改了)。回头看,有些猜对了,有些纯属想多了。

当时的预测

我当时猜了三个方向:

  1. 多模态原生支持 —— 视频理解和生成
  2. 长上下文窗口 —— 可能达到百万 token
  3. 更强的推理能力 —— 数学和逻辑问题

现在一个一个看。

预测复盘

多模态:猜对了方向,但形式不同

GPT-4o 确实做到了多模态,而且做得比我预想的更激进——实时语音对话、看摄像头、读屏幕截图。

不过视频生成是 Sora 在做,并没有集成到 GPT 里面。我当时把"理解"和"生成"混在一起说了,其实是两回事。

长上下文:也算猜对了

GPT-4 Turbo 做到了 128K,Gemini 做到了百万级别。方向没猜错。

但我当时没预到的是,长上下文更多是被国产模型(Kimi、DeepSeek)当成竞争差异点来推的。OpenAI 反而不怎么强调这个。

推理能力:被 o1 狠狠打脸

这个是我最没想到的。

我以为 GPT-5 会是 GPT-4 的"更聪明版",就是同一个架构参数更大、数据更多。

结果 OpenAI 搞出了 o1 这种完全不同的模式——让模型"慢思考",用更多的计算换更高的推理准确率。

GPT-5 到现在也没发布,反而是 o1、o3 这条路线成了主力。

我没猜到的事

列几个完全没预料到的:

  • AI Agent 方向的爆发:Claude 的 Computer Use、各种 AI 编程助手(Cursor、Windsurf),Agent 成了新战场
  • 开源模型追上来了:Llama 3.1 405B、DeepSeek V3,开源和闭源的差距在急速缩小
  • Scaling Law 的争议:原来以为模型越大越强是铁律,现在发现不一定,o1 的路线说明巧妙的架构设计可能比暴力堆参数更有效

回头看预测这件事

做预测很难,尤其是 AI 领域,三个月就能换一次天地。

但写预测文章有个好处:过段时间回来看,能发现自己当时的认知盲区。比如我当时完全没有"推理可以用慢思考换准确率"这个概念,说明我对 AI 的理解还停留在"大模型 = 大参数"的阶段。

下次再做预测,可能会谦虚一点。

也可能不会。

Built with ❤️ using VitePress v2 & Vue & Vite