💥 Gate广场活动: #PTB创作大赛# 💥
在 Gate广场发布与 PTB、CandyDrop 第77期或 Launchpool 活动 相关的原创内容,即有机会瓜分 5,000 PTB 奖励!
CandyDrop 第77期:CandyDrop x PTB 👉 https://www.gate.com/zh/announcements/article/46922
PTB Launchpool 火热进行中: 👉https://www.gate.com/zh/announcements/article/46934
📅 活动时间:2025年9月10日 12:00 – 9月14日24:00 UTC +8
📌 参与方式:
发布原创内容,主题需与 PTB、CandyDrop 或 Launchpool 相关
内容不少于 80 字
帖子添加话题: #PTB创作大赛#
附上 CandyDrop 或 Launchpool 参与截图
🏆 奖励设置:
🥇 一等奖(1名):2,000 PTB
🥈 二等奖(3名):800 PTB/人
🥉 三等奖(2名):300 PTB/人
📄 注意事项:
内容必须原创,禁止抄袭或刷量
获奖者需完成 Gate 广场身份认证
活动最终解释权归 Gate 所有
OpenAI 的新 GPT 实时语音 API 用于商业自动化
OpenAI正式推出了GPT-Realtime和改版的Realtime API,提供了一种强大的全能语音转语音模型,旨在改变商业应用中的语音互动。OpenAIGPT-Realtime功能
实时应用程序接口正式退出测试阶段,准备好为您的生产语音代理服务!
我们还推出了gpt-realtime——我们迄今为止最先进的语音对语音模型——以及新的声音和应用程序接口功能:
远程 MCP ️ 图片输入
SIP电话呼叫 ️ 可重用的提示 pic.twitter.com/fX5yvt0CDD
什么是GPT-Realtime及其重要性
GPT‑Realtime 是一个语音到语音的模型,直接处理音频输入和输出,绕过传统的多模型管道。这种单模型方法显著降低了延迟,捕捉语音细微差别(例如,停顿、语调、笑声),并提供自然、富有表现力的响应。Realtime API 现在已经准备好投入生产,包含了额外的功能,如图像输入、SIP 电话支持、远程模型上下文协议(MCP)工具和可重用的提示。OpenAI 与客户密切合作训练该模型,以在客户支持、个人助手和教育等实际领域表现出色。
该模型在指令遵循准确性方面显示出显著改善(,从大约65.6%上升到82.8%),以及语音质量。随着两个新声音“雪松”和“海洋”的引入,交互变得更加生动和吸引人。重要的是,OpenAI将价格降低了约20%,当前每百万音频输入令牌的费用约为32美元,每百万输出令牌的费用约为64美元,使得高性能语音AI对企业来说更加具成本效益。
为商业而建:现实世界的应用案例
OpenAI 强调模型与实际企业使用的一致性。通过促进直接音频处理和启用工具集成,开发者现在可以为实时客户支持、辅导、虚拟助手等任务构建响应式语音代理。SIP 电话呼叫功能的增加对于呼叫中心部署尤其重要,能够实现 AI 与传统电话系统之间的无缝交接。
GPT‑Realtime 基于 2024 年 5 月推出的 GPT‑4o ( 的遗产,"o" 代表 "omni")。GPT‑4o 引入了真正的多模态能力,处理文本、音频和视觉,具有本地语音支持和令人印象深刻的性能基准。它支持超过 50 种语言,并支持企业定制的微调。2024 年 10 月发布的 Realtime API 标志着语音互动的早期阶段,现已通过今天的增强显著成熟。
结论
GPT-Realtime 代表了 AI 驱动语音应用的一个重要进展,将低延迟、自然语音和扩展工具访问结合到一个单一的、适合商业的 API 中。借助改进的性能指标、降低的成本和实用的集成功能,这次更新为开发语音代理、客户支持系统和互动学习工具的组织提供了实质性的价值。
功能