OpenAI 发布了 GPT-实时语音到语音模型，支持多模态和先进的对话能力

2025-09-01 14:03:09

简要

OpenAI发布了具有多模态支持、先进对话能力和强大音频推理性能的gpt-realtime语音对语音模型。

OpenAI 推出具有多模态支持和高级对话功能的 GPT-实时语音转语音模型

人工智能研究机构OpenAI宣布其Realtime API的全面可用性，该API现在增强了功能，允许开发者和企业构建强大的、生产就绪的语音代理。该API支持远程MCP服务器、图像输入和通过会话发起协议(SIP)进行电话拨打，使得语音应用程序更加强大和具有上下文意识。

除了API，OpenAI还发布了其最先进的语音对语音模型gpt-realtime，旨在改善指令跟随、功能调用和自然听起来的语音。该模型能够理解复杂的提示、在句中切换语言、准确再现字母数字序列并捕捉非语言线索。两种新声音，Cedar和Marin，也可用，提供更具表现力和更人性化的语调。现有声音已更新以融入这些增强功能。

Realtime API 通过单一模型直接处理音频，减少延迟并保留细微差别，与将单独的语音转换为文本和文本转换为语音模型串联的传统流程不同。gpt-realtime 与用户合作训练，以在客户支持、个人助理和教育等现实应用中表现出色。基准评估显示，与以前的模型相比，在推理、遵循指令和功能调用准确性方面有显著改善。

其他更新包括异步函数调用，允许长时间运行的操作而不干扰正在进行的对话，进一步支持无缝的、生产就绪的语音体验。

OpenAI扩展实时API，支持MCP、图像输入、SIP集成以及语音代理的成本节约控制

OpenAI的实时API现在包括新功能，旨在简化集成并扩展生产就绪语音代理的能力。开发者可以通过将会话链接到MCP服务器URL来启用远程MCP支持，从而允许API自动管理工具调用，并在无需手动设置的情况下访问额外功能。

gpt-realtime模型现在支持图像输入，使系统能够将照片、截图和其他视觉内容与音频或文本结合使用。这允许用户根据他们看到的内容提出特定上下文的问题，同时开发者可以控制哪些图像被共享以及何时共享。

其他改进包括会话发起协议 (SIP) 支持将应用程序连接到电话网络和PBX系统，以及可重用的提示，使开发人员能够在多个会话中保存和部署预配置的指令、工具和示例消息。

现在所有开发者都可以访问通常可用的实时API和gpt-realtime模型，定价比之前的gpt-4o-realtime-preview降低了20%。新的对话上下文控制允许更智能的令牌管理，从而减少长期会话的成本。为了支持开发者采用这些功能，提供了文档、一个用于测试的游乐场以及实时API提示指南。

GPT11.42%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论