滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

三星自研TRUEBench上线，以真实场景实践助力AI性能评估新标准

时间：2025-09-25 19:21:40 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

三星近日宣布推出自主研发的AI性能基准测试工具“可信真实场景使用评估基准”（Trustworthy Real-world Usage evaluation Benchmark，简称TRUEBench），旨在填补现有测试工具在多语言支持和复杂任务评估方面的空白。该工具由三星研究院开发，针对当前主流AI基准测试过于依赖英语和单轮问答结构的局限性进行优化。

测试集设计方面，TRUEBench突破了传统基准测试的单一模式。其测试样本长度从8个字符的短任务到超过20000字符的长文档处理不等，涵盖从基础指令执行到复杂逻辑推理的完整能力谱系。这种设计使评估结果更贴近真实业务场景中的AI应用表现。

在评估机制上，TRUEBench采用AI与人工协同优化的评分系统。通过机器学习模型与专业评估人员的交互校准，工具建立了包含多维度指标的量化评估框架。目前，该工具的测试数据集和实时排行榜已在开源社区Hugging Face上线，用户可同时对比最多5个AI模型的性能表现。

三星电子DX部门首席技术官Paul (Kyungwhoon) Cheun强调，TRUEBench的开发基于三星在智能设备领域的深厚技术积累。他表示：“通过将真实场景中的AI应用经验转化为标准化评估体系，我们希望为行业提供更具参考价值的性能指标，同时巩固三星在AI技术创新领域的领先地位。”

该工具的推出标志着三星在AI基础设施领域的战略升级。与现有测试工具相比，TRUEBench的多语言支持体系涵盖主流语种及部分小语种，其任务分类系统则精确对应企业数字化转型中的典型工作场景。这种差异化设计使其在商业应用评估方面具有显著优势。

更多>同类资讯

Meta发布代码世界模型CWM：引入世界模型，或开启编程模型新路径

09-25

郎酒发力兼香赛道：龙马郎卡位核心价格带，加速全国化布局

09-25

中产热衷“散装奢侈品”：消费新趋势下奢侈品市场何去何从？

09-25

广州握手网络：技术赋能商业，引领互联网销售与转型新潮流

09-25

比比赞：以敏捷研发筑基，借全渠道布局，在零食红海闯出系统化增长路

09-25

抖音直播重拳整治录播挂机乱象：超45万直播间受罚，3.3万黑产账号被无限期封禁

09-25

市场监管总局推进充电宝召回工作保障用户权益并强化市场监管

09-25

京东工业IPO备案通过：年营收达204亿，刘强东旗下上市版图再扩容

09-25

短剧新篇：霸总“活感”重塑，细腻表达开启短剧新赛道

09-25

营收净利双滑坡，“奶粉一哥”飞鹤陷困局，“第一”宝座岌岌可危

09-25

2025上半年VR市场遇冷降温，AR智能眼镜市场火热增长态势明显

按细分市场来看，基于 Birdbath 方案、以视频为中心的 AR 智能眼镜仍然占据主导地位，占出货量的78%，其次是基于光波导（waveguide）、以信息显示为主的 AR 智能眼镜，占比约 17%。 …

09-25

西湖大学赵世钰团队破局：多旋翼无人机“叠飞”协同作业首登Nature

看视频1，FlyingToolbox能够成功实现不少于20次的连续对接，且20次对接实验的平均误差为0.80厘米（标准差0.33厘米），这一亚厘米级的精度相较于先前的无机械臂补偿的对接系统（精度6-8厘米）…

09-25

新疆科研团队11年攻坚 “保鲜术”助力天山果品跨越山海留鲜甜

中新网新疆新闻9月24日电（王小军）9月24日，新疆维吾尔自治区农业科学院与阿克苏鲜丰水果有限公司在乌鲁木齐签约，未来五年将联手攻关，以这项技术为核心，为新疆特色干鲜果品打造全链条保鲜加工方案，让戈壁珍馐跨越…

09-25

世界最大规模！6100个中性原子量子比特阵列问世，精度质量双突破

研究人员下一步旨在实现原子纠缠，这是解锁全规模量子计算的关键步骤。 "这是中性原子量子计算的激动时刻，"项目首席研究员曼努埃尔·恩德雷斯教授表示，"我们现在看到了通往大型容错量子计算机的清晰路径，基础构建模块…

09-25

广西科研团队发现兴安野橘：自带耐黄龙病基因，助柑橘产业高质量发展

近期，广西特色作物研究院柑橘种质创新与利用团队在《Scientific Data》期刊上发表一篇研究论文，论文提及了对原始柑橘类型——兴安野橘的染色体基因组测序组装成果，研究人员发现兴安野橘对柑橘黄龙病比较耐…

09-25

全站最新

四川省自然资源建设公司登记成立注册资本6亿

伯特利等在浙江成立传动科技公司注册资本1亿

小米景明在南昌成立科技公司

热门内容

本栏最新

雷军第99次健身打卡收官在即，年度演讲与小米17系列发布同日将启

天回航天“巧龙一号”发动机完成超低工况热试车，展现深度推力调节潜力

2025秋季搜狐视频播主大会三亚启幕，多元互动共探关注流社交新生态

NVIDIA50亿美元投资Intel，台积电风险可控，先进制程优势或延续至2030年

复旦团队绘制代谢组图谱：解锁疾病早期预警密码，助力精准医疗

国庆中秋假期将至，租台无人机记录美好旅程成热门新选择

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.