💥 Gate廣場活動: #PTB创作大赛# 💥
在 Gate廣場發布與 PTB、CandyDrop 第77期或 Launchpool 活動 相關的原創內容,即有機會瓜分 5,000 PTB 獎勵!
CandyDrop 第77期:CandyDrop x PTB 👉 https://www.gate.com/zh/announcements/article/46922
PTB Launchpool 火熱進行中: 👉https://www.gate.com/zh/announcements/article/46934
📅 活動時間:2025年9月10日 12:00 – 9月14日24:00 UTC +8
📌 參與方式:
發布原創內容,主題需與 PTB、CandyDrop 或 Launchpool 相關
內容不少於 80 字
帖子添加話題: #PTB创作大赛#
附上 CandyDrop 或 Launchpool 參與截圖
🏆 獎勵設置:
🥇 一等獎(1名):2,000 PTB
🥈 二等獎(3名):800 PTB/人
🥉 三等獎(2名):300 PTB/人
📄 注意事項:
內容必須原創,禁止抄襲或刷量
獲獎者需完成 Gate 廣場身分認證
活動最終解釋權歸 Gate 所有
OpenAI 的新 GPT 實時語音 API 用於商業自動化
OpenAI正式推出了GPT-Realtime和改版的Realtime API,提供了一種強大的全能語音轉語音模型,旨在改變商業應用中的語音互動。OpenAIGPT-Realtime功能
實時應用程式接口正式退出測試階段,準備好爲您的生產語音代理服務!
我們還推出了gpt-realtime——我們迄今爲止最先進的語音對語音模型——以及新的聲音和應用程式接口功能:
遠程 MCP ️ 圖片輸入
SIP電話呼叫 ️ 可重用的提示 pic.twitter.com/fX5yvt0CDD
什麼是GPT-Realtime及其重要性
GPT‑Realtime 是一個語音到語音的模型,直接處理音頻輸入和輸出,繞過傳統的多模型管道。這種單模型方法顯著降低了延遲,捕捉語音細微差別(例如,停頓、語調、笑聲),並提供自然、富有表現力的響應。Realtime API 現在已經準備好投入生產,包含了額外的功能,如圖像輸入、SIP 電話支持、遠程模型上下文協議(MCP)工具和可重用的提示。OpenAI 與客戶密切合作訓練該模型,以在客戶支持、個人助手和教育等實際領域表現出色。
該模型在指令遵循準確性方面顯示出顯著改善(,從大約65.6%上升到82.8%),以及語音質量。隨着兩個新聲音“雪松”和“海洋”的引入,交互變得更加生動和吸引人。重要的是,OpenAI將價格降低了約20%,當前每百萬音頻輸入令牌的費用約爲32美元,每百萬輸出令牌的費用約爲64美元,使得高性能語音AI對企業來說更加具成本效益。
爲商業而建:現實世界的應用案例
OpenAI 強調模型與實際企業使用的一致性。通過促進直接音頻處理和啓用工具集成,開發者現在可以爲實時客戶支持、輔導、虛擬助手等任務構建響應式語音代理。SIP 電話呼叫功能的增加對於呼叫中心部署尤其重要,能夠實現 AI 與傳統電話系統之間的無縫交接。
GPT‑Realtime 基於 2024 年 5 月推出的 GPT‑4o ( 的遺產,"o" 代表 "omni")。GPT‑4o 引入了真正的多模態能力,處理文本、音頻和視覺,具有本地語音支持和令人印象深刻的性能基準。它支持超過 50 種語言,並支持企業定制的微調。2024 年 10 月發布的 Realtime API 標志着語音互動的早期階段,現已通過今天的增強顯著成熟。
結論
GPT-Realtime 代表了 AI 驅動語音應用的一個重要進展,將低延遲、自然語音和擴展工具訪問結合到一個單一的、適合商業的 API 中。借助改進的性能指標、降低的成本和實用的集成功能,這次更新爲開發語音代理、客戶支持系統和互動學習工具的組織提供了實質性的價值。
功能