不满现有评测工具,Samsung 推自研 AI 基准 TRUEBench

关注我们的 WhatsApp 频道, TikTokInstagram 以观看最新的短视频 - 开箱,测评与第一手新闻资讯。

Samsung 今日正式宣布推出自研 AI 基准测试工具 TRUEBench(可信真实场景使用评估基准),由 Samsung 研究院(Samsung Research)开发。该工具的出现,旨在解决现有 AI 测试方法过于单一、语言覆盖有限等问题,并为业界建立更贴近真实使用场景的评估标准。

根据 Samsung 介绍,TRUEBench 的测试重点在于多语言、多场景下的 AI 实际应用能力,而不仅仅是单轮问答或英语语境。其测试内容涵盖 10 大类企业常见任务,包括内容生成、数据分析、文本摘要与翻译等,进一步体现了工具的实用导向。

TRUEBench 共包含 2485 组测试集,覆盖 10 个大类、46 个子类及 12 种语言,任务复杂度从简短文本处理到超过 2 万字的长文档总结,全面检验 AI 模型的真实问题解决能力。

在评分体系上,TRUEBench 结合 AI 与人工评估机制,保证结果的可信度与公正性。其数据样本与排行榜已上线 Hugging Face,开发者和企业用户可利用平台测试最多 5 个 AI 模型,并对比它们在性能与效率上的差异。

Samsung 电子 DX 部门首席技术官兼 Samsung 研究院院长 Paul (Kyungwhoon) Cheun 表示,TRUEBench 的推出是基于 Samsung 在实际 AI 应用中的深厚经验,希望该工具能成为生产力领域的权威评估标准,并进一步巩固 Samsung 在 AI 技术赛道的领先地位。

更多科技资讯,请继续守住 TechNave 中文版!
资料来源

大家来评论

不满现有评测工具,Samsung 推自研 AI 基准 TRUEBench

| 手机新闻, 新闻/资讯 |