GPT-4o 发布：实时语音对话真的太丝滑了

发布时间：2024-05-14 08:00

标签：

最后编辑：2024-05-14 08:00

全文大约 0 字（读完需 1 分钟）

凌晨看完 OpenAI 发布会，本来期待 GPT-5，结果发布的是 GPT-4o。

一开始有点失望，看完演示之后：这才是正确的方向。

什么是 GPT-4o

o 代表 omni（全能），核心能力是多模态实时交互。

简单说就是：你可以对着手机实时说话，它实时回复。没有延迟，没有等待转圈。

发布会上最惊艳的演示是这个：

它能听出你的情绪！

然后还有唱歌的演示、同时翻译的演示。延迟低到像人和人对话。

我在 ChatGPT App 上试了一下：

缺点是目前只支持英语效果最好，中文还差点意思。

我的理解是这样：GPT-5 可能是更聪明的文字模型，但 GPT-4o 是在解决人和 AI 如何交互的问题。

以前用 ChatGPT，需要打字、等待、阅读。现在可以像打电话一样聊天。这对于很多不习惯打字的人来说，才是真正的普及。

GPT-4o 让我看到了 Her 那个电影里的 AI 助手形态。

虽然现在还有各种限制，但方向对了。等中文效果优化好，可能真的会改变很多人使用手机的方式。