Skip to content

GPT-4o 发布:实时语音对话真的太丝滑了

发布时间:2024-05-14 08:00
最后编辑:2024-05-14 08:00
全文大约 0 字(读完需 1 分钟)

凌晨看完 OpenAI 发布会,本来期待 GPT-5,结果发布的是 GPT-4o。

一开始有点失望,看完演示之后:这才是正确的方向。

什么是 GPT-4o

o 代表 omni(全能),核心能力是多模态实时交互。

简单说就是:你可以对着手机实时说话,它实时回复。没有延迟,没有等待转圈。

语音交互演示

发布会上最惊艳的演示是这个:

  1. 用户对着手机说话,语气紧张
  2. GPT-4o 说:"深呼吸,慢一点"
  3. 用户深呼吸,GPT-4o 说:"好多了"

它能听出你的情绪!

然后还有唱歌的演示、同时翻译的演示。延迟低到像人和人对话。

实际体验

我在 ChatGPT App 上试了一下:

  • 响应速度:确实快,说完话 0.5 秒内就开始回复
  • 打断能力:说话过程中可以随时打断,像真人对话
  • 语气自然度:比之前的 TTS 好太多,有抑扬顿挫

缺点是目前只支持英语效果最好,中文还差点意思。

为什么这个比 GPT-5 重要

我的理解是这样:GPT-5 可能是更聪明的文字模型,但 GPT-4o 是在解决人和 AI 如何交互的问题。

以前用 ChatGPT,需要打字、等待、阅读。现在可以像打电话一样聊天。这对于很多不习惯打字的人来说,才是真正的普及。

总结

GPT-4o 让我看到了 Her 那个电影里的 AI 助手形态。

虽然现在还有各种限制,但方向对了。等中文效果优化好,可能真的会改变很多人使用手机的方式。

Built with ❤️ using VitePress v2 & Vue & Vite