三星近日宣布推出自主研发的AI性能基准测试工具“可信真实场景使用评估基准”(Trustworthy Real-world Usage evaluation Benchmark,简称TRUEBench),旨在填补现有测试工具在多语言支持和复杂任务评估方面的空白。该工具由三星研究院开发,针对当前主流AI基准测试过于依赖英语和单轮问答结构的局限性进行优化。
测试集设计方面,TRUEBench突破了传统基准测试的单一模式。其测试样本长度从8个字符的短任务到超过20000字符的长文档处理不等,涵盖从基础指令执行到复杂逻辑推理的完整能力谱系。这种设计使评估结果更贴近真实业务场景中的AI应用表现。
在评估机制上,TRUEBench采用AI与人工协同优化的评分系统。通过机器学习模型与专业评估人员的交互校准,工具建立了包含多维度指标的量化评估框架。目前,该工具的测试数据集和实时排行榜已在开源社区Hugging Face上线,用户可同时对比最多5个AI模型的性能表现。
三星电子DX部门首席技术官Paul (Kyungwhoon) Cheun强调,TRUEBench的开发基于三星在智能设备领域的深厚技术积累。他表示:“通过将真实场景中的AI应用经验转化为标准化评估体系,我们希望为行业提供更具参考价值的性能指标,同时巩固三星在AI技术创新领域的领先地位。”
该工具的推出标志着三星在AI基础设施领域的战略升级。与现有测试工具相比,TRUEBench的多语言支持体系涵盖主流语种及部分小语种,其任务分类系统则精确对应企业数字化转型中的典型工作场景。这种差异化设计使其在商业应用评估方面具有显著优势。