三星电子宣布推出一款自主研发的AI性能基准测试工具——TRUEBench,全称为“可信真实场景使用评估基准”(Trustworthy Real-world Usage evaluation Benchmark)。该工具由三星研究院开发,旨在填补现有AI基准测试工具在多语言支持和复杂任务评估方面的空白,为企业级AI应用提供更贴近实际场景的评估标准。
三星研究院在开发过程中发现,传统AI基准测试工具普遍存在两大缺陷:一是语言覆盖范围有限,主要聚焦英语环境;二是测试场景过于单一,多局限于单轮问答结构。而TRUEBench通过构建包含12种语言的测试体系,覆盖了从8个字符的简短指令到2万字符的长文档处理等多样化任务,形成了包含2485组测试集的评估框架。这些测试集被划分为10个大类、46个子类,涵盖内容生成、数据分析、文本摘要、跨语言翻译等10项核心企业任务。
该工具的评估机制采用AI与人类专家协同设计的自动评分系统,通过多维度参数构建可靠性验证模型。三星特别强调,TRUEBench的测试设计基于企业内部AI生产力提升的实践经验,能够更精准地反映AI模型在实际业务场景中的问题解决能力。目前,工具的数据样本及排行榜已在开源平台Hugging Face上线,用户可免费测试最多5个AI模型,并获取性能效率对比报告。
三星电子DX部门首席技术官兼三星研究院院长Paul (Kyungwhoon) Cheun表示:“三星研究院在真实业务场景中积累了深厚的AI应用经验,这使我们具备开发专业评估工具的独特优势。TRUEBench的推出不仅能为行业提供生产力领域的评估标准,也将进一步强化三星在技术创新领域的领导地位。”