ITBear旗下自媒体矩阵：

滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

三星自研AI性能基准测试工具TRUEBench上线，填补多语言多任务评估空白

时间：2025-09-26 00:52:08 来源：快讯编辑：快讯 IP：北京 发表评论无障碍通道

三星电子宣布推出一款自主研发的AI性能基准测试工具——TRUEBench，全称为“可信真实场景使用评估基准”（Trustworthy Real-world Usage evaluation Benchmark）。该工具由三星研究院开发，旨在填补现有AI基准测试工具在多语言支持和复杂任务评估方面的空白，为企业级AI应用提供更贴近实际场景的评估标准。

三星研究院在开发过程中发现，传统AI基准测试工具普遍存在两大缺陷：一是语言覆盖范围有限，主要聚焦英语环境；二是测试场景过于单一，多局限于单轮问答结构。而TRUEBench通过构建包含12种语言的测试体系，覆盖了从8个字符的简短指令到2万字符的长文档处理等多样化任务，形成了包含2485组测试集的评估框架。这些测试集被划分为10个大类、46个子类，涵盖内容生成、数据分析、文本摘要、跨语言翻译等10项核心企业任务。

该工具的评估机制采用AI与人类专家协同设计的自动评分系统，通过多维度参数构建可靠性验证模型。三星特别强调，TRUEBench的测试设计基于企业内部AI生产力提升的实践经验，能够更精准地反映AI模型在实际业务场景中的问题解决能力。目前，工具的数据样本及排行榜已在开源平台Hugging Face上线，用户可免费测试最多5个AI模型，并获取性能效率对比报告。

三星电子DX部门首席技术官兼三星研究院院长Paul (Kyungwhoon) Cheun表示：“三星研究院在真实业务场景中积累了深厚的AI应用经验，这使我们具备开发专业评估工具的独特优势。TRUEBench的推出不仅能为行业提供生产力领域的评估标准，也将进一步强化三星在技术创新领域的领导地位。”

更多>同类资讯

初创公司Taalas押注极端专用化：3000万美元造AI芯片性能碾压GPU

当前 AI 推理芯片市场大致可以按专用化程度排列成一个光谱：一端是 Nvidia GPU 这样的高度通用方案；中间是Groq、Cerebras、SambaNova 等，它们设计了针对 LLM 推理优化的定…

02-22

预算十几万买家用车的看过来！这3款安全耐用，开十年八年不操心

购买建议：预算有限、追求高性价比的朋友，选1.5T科技版就够了，优惠后11万出头，安全配置、基础舒适配置都有，完全能满足家用；家里人口多、经常跑长途，追求更舒适、更省油的朋友，建议选混动豪华版，虽然价格稍高，…

02-22

百度地图AI副驾互动破亿！岳云鹏人设备受青睐出行陪伴更有趣

新榜讯2月21日讯，自百度地图春节版本推出后，其AI陪伴式出行功能呈现爆发式增长态势。用户活跃度与互动深度均创下新纪录，这一标志性成果宣告AI副驾正式从尝鲜期步入高频使用阶段。据统计，截至2月17日，百度地图…

02-22

谷歌加码TPU布局与数据中心投资欲在AI芯片市场突围英伟达

谷歌正在探索扩大其人工智能芯片市场的新方式，试图利用自身的资金实力构建更广泛的AI生态系统，以更好地与市场领导者英伟达竞争。过去一年，越来越多开发和运营AI的公司对谷歌TPU表现出兴趣，希望获得更具成本效…

02-22

Transformer：AI大模型“加速引擎”，从自然语言到多领域的变革力量

Transformer是2017年由谷歌团队提出的一种革命性神经网络架构，其核心创新在于摒弃了传统的循环神经网络（RNN），完全依赖“自注意力机制”来处理序列数据。它不仅是BERT、GPT等几乎所有现代大语言…

02-22

中美俄卫星数量大揭秘：老美存量领先，中国增量质量双驱动后来居上

早几年我们搞定了“北斗”全球组网，这两年我们又在全力推进“中国版星链”。这事儿说白了，天上的轨道位置以及无线电频率都是有限资源，谁先占了就是谁的。老美的存量确实大，但中国的增量以及质量，才是这几年国际航…

02-22

OpenAI算力支出目标下调：利空误解还是战略调整新信号？

02-22

小米大电池新机再添猛将！8000mAh级新机将至下半年还有更大惊喜

结合同一位博主的互动信息来看，这两款大电池机型都是上半年的新机，下半年也有万级方案。按照爆料中的说法，这款小米17系列新机将是一款大尺寸的产品，定位大电池大屏旗舰机，与现售的小米17系列机型存在一定的差异…

02-22

谷歌Gemini 3.1 Pro升级登场，推理性能跃升，Pixel 10a同步焕新

据了解，在 Gemini 3 系列基础上，3.1 Pro 在核心推理能力上实现了显著提升，成为解决复杂问题更智能、更强大的基础模型。升级后的智能水平可赋能各类实际场景 —— 无论是为复杂课题提供清晰直观的…

02-22

2026春晚机器人引热潮：“仿生蔡明”赠真蔡明，“熊猫款”高价成交

红星新闻记者从魔法原子方面获悉，2月17日，“春晚版国宝熊猫机器人”在京东拍卖平台正式落槌，最终以57527元的价格成交，买家是一位来自北京的网友。红星新闻记者在松延动力的旗舰店看到，小品中蔡明最小的“孙…

02-22

小米新机来袭：2月28日全球发布，小米17系列影像性能双突破

同时，小米新机官宣，将会在2月28日全球发布，机型是小米17系列（Xiaomi 17 Series），预计只是小米17标准版本、小米17 Ultra版本，其它版本推出的可能性并不大。或许，屏幕提升到2K分辨…

02-22

2025年手机市场新机发布盘点：苹果5款垫底 OPPO系45款领跑安卓阵营

快科技2月21日消息，对于已经过去的2025年，你知道手机厂商一共发布了多少新机吗？近日，有博主分享了一张2025年手机厂商新机数量的统计图，OPPO以45款的新机数量成为2025年发布新机最多的厂商。从…

02-22

2025年手机市场新机大盘点：苹果5款“佛系”发新，OPPO45款强势领跑

02-22

龙游非遗巡游遇上科技萌宠，机器狗舞狮解锁新年别样欢乐！

十支民间舞蹈队伍踏街而行，“龙游产”机器人、机器狗惊喜登场，传统韵味与科技活力碰撞出别样火花，给市民游客送上了一场精彩纷呈的新春视觉盛宴。这场融合了传统非遗与现代科技的新春盛宴，让市民游客解锁了龙游“新”年味…

02-22

2026马年春晚AI闪耀：15大科技亮点，见证科技与艺术的完美交融

而2026年春节，这一格局发生了显著变化，春晚的金主阵营里，出现了多家AI和智能硬件企业，标志着硬核科技已经成为新的顶流。所以根据我的信息，这次春晚组，用上了AI，而且是在字节和火山合作之后，提前用上了S…

02-22

点击查看更多 +

全站最新

预算十几万买家用车的看过来！这3款安全耐用，开十年八年不操心

龙游非遗巡游遇上科技萌宠，机器狗舞狮解锁新年别样欢乐！

春节租新能源车返乡：6天花2900元，灵活自由还体验智能新科技

丰田新款YARIS亮相：配置升级诚意足，Z URBANO版6MT成驾驶乐趣之选

自驾游热潮下7座SUV成新宠！比亚迪大唐等4款新车即将登场

全新日产轩逸2月24日登场：外观内饰焕新，1.6L自吸动力延续现款价格

热门内容

本栏最新

预算十几万买家用车的看过来！这3款安全耐用，开十年八年不操心

龙游非遗巡游遇上科技萌宠，机器狗舞狮解锁新年别样欢乐！

2026马年春晚AI闪耀：15大科技亮点，见证科技与艺术的完美交融

科大讯飞AI蓝牙耳机Pro 3：智能降噪会议好帮手，超长续航伴您高效办公

IXDC线上分享：科大讯飞王玮谈AI赋能设计，解锁通用人工智能七大维度新体验

初代小米SU7正式停产：两年交付超38万辆，新一代车型4月将至

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.

​三星自研AI性能基准测试工具TRUEBench上线，填补多语言多任务评估空白​

三星自研AI性能基准测试工具TRUEBench上线，填补多语言多任务评估空白