关注我们的 WhatsApp 频道, TikTok 与 Instagram 以观看最新的短视频 - 开箱,测评与第一手新闻资讯。
NVIDIA 推出全新多模态模型Nemotron 3 Nano Omni,将视觉、音频与语言处理整合到单一系统中,解决AI代理在多个模型之间切换带来的延迟与上下文丢失问题,数据吞吐量相比同类模型提升约9倍。
传统AI系统在处理包含图像、语音和文本的任务时,通常需要多个模型分别处理再拼接结果,不仅延迟高,也容易丢失跨模态信息。而Nemotron 3 Nano Omni采用30B-A3B的混合专家(MoE)架构,把视觉与音频能力直接内建进模型,实现“看、听、读”一体化,大幅提升效率并降低成本。

该模型主要应用于三类 AI 代理场景:
- 电脑操作:可理解 1920×1080 界面,在 GUI 中自动导航与操作
- 文档分析:同时处理文本、图表、表格与截图
- 音视频理解:同步分析语音与画面,避免信息错位
目前包括Foxconn、Dell、Oracle、Palantir等企业已开始采用或评估。
此外,该模型采用开放策略,提供权重与训练工具,支持通过NVIDIA NeMo进行微调,并可从边缘设备(如 Jetson)、本地工作站到云端数据中心灵活部署。
【资料来源】
大家来评论














