关注我们的 WhatsApp 频道, TikTok 与 Instagram 以观看最新的短视频 - 开箱,测评与第一手新闻资讯。
OpenAI于昨日正式发布其最新语音模型GPT-realtime,根据官方的介绍这是一款专注于语音AI Agent的多模态模型,能够生成高度自然、流畅的语音,并精准还原人类语调、情感及语速的细微变化,打造真人般的效果。
此外,GPT-realtime不仅能够支持语音生成,还具备图像理解能力,可结合语音或文本进行对话,非常适合在客服、教育、金融、医疗等场景中使用,用于构建高质量的语音智能体。

官方表示,新模型在复杂指令遵循、工具调用准确性以及自然表达力上都有显著的提升。尤其在逐字朗读免责声明、重复字母与数字、跨语言无缝切换等使用场景中,GPT-realtime展现出强大的适应能力。
同时,该模型拥有优秀的上下文理解能力,能够捕捉非语言线索,例如笑声,并实时调整语气,从而实现诸如 “带法国口音的友好语调”或“快速的专业语调” 等多样化的表现方式。
值得关注的是,GPT-realtime新增了 “Cedar” 和 “Marin” 两种全新语音风格,并对现有的八种语音效果进行了全面优化,为用户提供更多选择和更高质量的声音体验。
更多科技资讯,请继续守住 TechNave 中文版!
【资料来源】
大家来评论














