OpenAI发布全新语音模型GPT-realtime：打造更自然的语音AI Agent！

关注我们的 WhatsApp 频道, TikTok 与 Instagram 以观看最新的短视频 - 开箱，测评与第一手新闻资讯。

OpenAI于昨日正式发布其最新语音模型GPT-realtime，根据官方的介绍这是一款专注于语音AI Agent的多模态模型，能够生成高度自然、流畅的语音，并精准还原人类语调、情感及语速的细微变化，打造真人般的效果。

此外，GPT-realtime不仅能够支持语音生成，还具备图像理解能力，可结合语音或文本进行对话，非常适合在客服、教育、金融、医疗等场景中使用，用于构建高质量的语音智能体。

官方表示，新模型在复杂指令遵循、工具调用准确性以及自然表达力上都有显著的提升。尤其在逐字朗读免责声明、重复字母与数字、跨语言无缝切换等使用场景中，GPT-realtime展现出强大的适应能力。

同时，该模型拥有优秀的上下文理解能力，能够捕捉非语言线索，例如笑声，并实时调整语气，从而实现诸如 “带法国口音的友好语调”或“快速的专业语调” 等多样化的表现方式。

值得关注的是，GPT-realtime新增了 “Cedar” 和 “Marin” 两种全新语音风格，并对现有的八种语音效果进行了全面优化，为用户提供更多选择和更高质量的声音体验。

更多科技资讯，请继续守住 TechNave 中文版！

大家来评论

天天 | 新闻/资讯, 其它科技新闻 | 9月 2, 2025 12:15 下午