Skip to content
GPT-4o 发布:实时语音对话真的太丝滑了
凌晨看完 OpenAI 发布会,本来期待 GPT-5,结果发布的是 GPT-4o。
一开始有点失望,看完演示之后:这才是正确的方向。
什么是 GPT-4o
o 代表 omni(全能),核心能力是多模态实时交互。
简单说就是:你可以对着手机实时说话,它实时回复。没有延迟,没有等待转圈。
语音交互演示
发布会上最惊艳的演示是这个:
- 用户对着手机说话,语气紧张
- GPT-4o 说:"深呼吸,慢一点"
- 用户深呼吸,GPT-4o 说:"好多了"
它能听出你的情绪!
然后还有唱歌的演示、同时翻译的演示。延迟低到像人和人对话。
实际体验
我在 ChatGPT App 上试了一下:
- 响应速度:确实快,说完话 0.5 秒内就开始回复
- 打断能力:说话过程中可以随时打断,像真人对话
- 语气自然度:比之前的 TTS 好太多,有抑扬顿挫
缺点是目前只支持英语效果最好,中文还差点意思。
为什么这个比 GPT-5 重要
我的理解是这样:GPT-5 可能是更聪明的文字模型,但 GPT-4o 是在解决人和 AI 如何交互的问题。
以前用 ChatGPT,需要打字、等待、阅读。现在可以像打电话一样聊天。这对于很多不习惯打字的人来说,才是真正的普及。
总结
GPT-4o 让我看到了 Her 那个电影里的 AI 助手形态。
虽然现在还有各种限制,但方向对了。等中文效果优化好,可能真的会改变很多人使用手机的方式。
