不满现有评测工具，Samsung 推自研 AI 基准 TRUEBench

关注我们的 WhatsApp 频道, TikTok 与 Instagram 以观看最新的短视频 - 开箱，测评与第一手新闻资讯。

Samsung 今日正式宣布推出自研 AI 基准测试工具 TRUEBench（可信真实场景使用评估基准），由 Samsung 研究院（Samsung Research）开发。该工具的出现，旨在解决现有 AI 测试方法过于单一、语言覆盖有限等问题，并为业界建立更贴近真实使用场景的评估标准。

根据 Samsung 介绍，TRUEBench 的测试重点在于多语言、多场景下的 AI 实际应用能力，而不仅仅是单轮问答或英语语境。其测试内容涵盖 10 大类企业常见任务，包括内容生成、数据分析、文本摘要与翻译等，进一步体现了工具的实用导向。

TRUEBench 共包含 2485 组测试集，覆盖 10 个大类、46 个子类及 12 种语言，任务复杂度从简短文本处理到超过 2 万字的长文档总结，全面检验 AI 模型的真实问题解决能力。

在评分体系上，TRUEBench 结合 AI 与人工评估机制，保证结果的可信度与公正性。其数据样本与排行榜已上线 Hugging Face，开发者和企业用户可利用平台测试最多 5 个 AI 模型，并对比它们在性能与效率上的差异。

Samsung 电子 DX 部门首席技术官兼 Samsung 研究院院长 Paul (Kyungwhoon) Cheun 表示，TRUEBench 的推出是基于 Samsung 在实际 AI 应用中的深厚经验，希望该工具能成为生产力领域的权威评估标准，并进一步巩固 Samsung 在 AI 技术赛道的领先地位。

更多科技资讯，请继续守住 TechNave 中文版！
【资料来源】

大家来评论

Chun Khan | 手机新闻, 新闻/资讯 | 9月 26, 2025 10:20 上午

1	HONOR 400 Pro	RM2699
2	Oppo Reno 12 Pro	RM2459
3	Redmi Note 15 5G	RM849
4	Apple iPhone 17 Pro Max	RM5999
5	vivo V70	RM1999
6	Honor 200 Pro	RM1990
7	HONOR X9d 5G	RM1499
8	Honor 600 Lite	RM1399
9	Samsung Galaxy A55	RM1200
10	OPPO Reno 16	RM2699

不满现有评测工具，Samsung 推自研 AI 基准 TRUEBench

不满现有评测工具，Samsung 推自研 AI 基准 TRUEBench

Google Play Games电脑版正式上线：20万款游戏+全新AI助手，随时跨屏畅玩！

Apple警告欧盟DMA：创新受阻、隐私受威胁，iOS正被逼向Android！

每日十大点击