文章来源:放心AI网发布时间:2025-06-07 12:32:13
今天,OpenAI 宣布对其实时 API 进行更新,目前该 API 仍处于测试阶段。这次更新的亮点在于推出了五种新的语音选项,专为语音到语音应用而设计,同时还降低了相关的缓存费用,让开发者在使用时更加经济实惠。
在新推出的五种语音中,OpenAI 在 X 上的一篇文章中展示了其中三种新声音,Ash、Verse 和听起来像英国的 Ballad。这些声音不仅更加生动和可调节,还能够提供更自然的交流体验。OpenAI 在其 API 文档中提到,这项原生的语音到语音功能省去了中间的文本格式处理,从而实现了低延迟和更具细腻度的输出。
不过,OpenAI 也提醒用户,由于实时 API 目前仍在测试阶段,因此暂时无法提供客户端的身份验证。此外,实时音频处理可能会受到网络条件的影响,这也给大规模传输音频带来了挑战。OpenAI 指出,当网络条件不稳定时,确保音频可靠传输的确是一项艰巨的任务。
OpenAI 在语音技术上的发展历程也颇具争议。今年三月,他们推出了 “Voice Engine” 这一语音克隆平台,试图与 ElevenLabs 竞争,但仅对少数研究者开放。随着 GPT-4o 和语音模式的演示,OpenAI 在五月暂停了名为 “Sky” 的语音使用,因为好莱坞女星斯嘉丽・约翰逊对此表达了不满,认为其与她的声音过于相似。
在九月份,OpenAI 为其付费订阅用户推出了 ChatGPT 高级语音模式,包括 ChatGPT Plus、Enterprise、Teams 和 Edu 等用户都可以使用。通过这种语音到语音的技术,企业可以更快速地生成实时响应,极大提升客户服务的效率。
关于实时 API 的定价问题,OpenAI 在之前的发布中定价为分钟音频输入0.06美元,音频输出0.24美元,这样的费用对于开发者来说相对较高。不过,这次更新后,使用缓存的文本输入费用将降低50%,而缓存的音频输入费用则高达80% 的折扣。
OpenAI 在开发者日中宣布了 “Prompt Caching” 这一新功能,能够将频繁请求的上下文提示保存在模型的记忆中,从而减少生成响应时所需的 token 数量。通过降低输入价格,OpenAI 希望吸引更多的开发者使用其 API。
此外,其他公司如 Anthropic 也推出了类似的缓存功能,以提高其语音技术的吸引力。
相关攻略 更多
最新资讯 更多
OpenAI重磅升级实时API:除了降价超50%,还推五种新语音
更新时间:2025-06-07
OpenAI宣布ChatGPT高级语音模式登陆Windows和Mac平台
更新时间:2025-06-07
万圣节特供!Pika又推三款怪异惊悚视频特效:悬浮、断头、惊掉眼
更新时间:2025-06-07
扎克伯格透露Meta加大AI投入,营收超预期
更新时间:2025-06-07
Waymo利用谷歌Gemini来训练其自动驾驶出租车
更新时间:2025-06-07
不同语言下的AI偏差!研究:AI模型在西班牙语选举问答中竟52%有误
更新时间:2025-06-07
GitHubC0pilot现已支持Xcode,苹果开发者可以体验AI编码助手
更新时间:2025-06-07
19年亏损终结!RedditCEO发文感谢AI帮助网站首度盈利
更新时间:2025-06-07
最新研究:AI模型在回答事实问题时表现拉胯,GPT-4o准确率才38.2%
更新时间:2025-06-07
别小看它!英伟达HOVER神经网络:在虚拟训练中仅用50分钟就能控制机器人
更新时间:2025-06-07