OpenAI发布GPT-4o：能看能听能说、文图音任意组合输出，完全免费！

关注我们的 WhatsApp 频道, TikTok 与 Instagram 以观看最新的短视频 - 开箱，测评与第一手新闻资讯。

在今天凌晨的OpenAI发布会上，最新升级的大模型GPT-4o正式发布。GPT-4o中的“o”代表“omni”，意为“全能”。这个词源自拉丁语“omnis”，在英语中常用作词根，表示“全部”或“所有”的概念。

GPT-4o能够实时对音频、视觉和文本进行推理，支持处理超过50种不同语言，且在速度和质量上有显著提升。此前，GPT-3.5的语音对话平均延迟为2.8秒，GPT-4为5.4秒，而且音频输入时会丢失大量信息，无法识别笑声、歌唱声和情感表达等细节。

而GPT-4o能够在232毫秒内对音频输入做出反应，甚至可以随意打断，与人类对话的反应时间相近，彻底颠覆了传统“语音助手”的体验。在发布会上，GPT-4o的实时翻译表现也相当出色，可以在意大利语和英语之间进行即时翻译。

最重要的是，GPT-4o可以接受文本、音频和图像的组合输入，并生成文本、音频和图像的任意组合输出，使人机交互更加自然、全面。

GPT-4o的能力还将向免费用户开放，但会有数量限制，免费用户达到上限后，系统会自动切回GPT-3.5。

此外，GPT-4o还将开放API给开发者使用，价格是GPT-4-turbo的一半，但速度却是其两倍，速率限制也高出5倍。

官方表示，GPT-4o将在未来几周内陆续开放。此外，OpenAI还推出了ChatGPT的桌面版应用，目前仅支持MacOS，Windows版将在稍后推出。

更多科技资讯，请继续守住 TechNave 中文版！
【资料来源】

大家来评论

Chun Khan | 应用程序新闻, 新闻/资讯 | 5月 14, 2024 10:32 上午