滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

LMArena公正性遭质疑：大型AI供应商是否享有不公优势？

时间：2025-05-02 09:32:27 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

人工智能领域近期掀起了一场关于公共基准测试平台公正性的热议。LMArena，这一备受瞩目的平台，近期被指存在对大型供应商如OpenAI、谷歌及meta的潜在偏袒，引发了行业内的广泛关注和争议。

LMArena平台通过展示不同大型语言模型（LLM）的回复对比，并由用户投票选出更优者，形成了一个在行业内被广泛引用的模型性能排行榜。这一机制原本旨在提供一个公平、透明的评估环境，然而，最新的研究却揭示了其排名系统可能存在的问题。

由Cohere Labs、普林斯顿大学和麻省理工学院的研究人员联合进行的一项深入分析显示，LMArena的排名可能受到了大型企业优势的影响。这些企业被指能够私下测试多个模型版本，并仅选择性能最佳的版本进行展示，而其余的则被悄然移除。这种做法被称为“分数游戏”，它使得排行榜上的模型更像是经过精心挑选的“优等生”。例如，meta在发布Llama4之前，据称至少测试了27个内部版本，并在用户批评后，部署了专门针对基准测试优化的版本。

研究还发现，大型供应商在获取用户数据方面拥有显著优势。通过API接口，它们能够收集到大量的用户与模型交互的数据，包括提示和偏好设置。然而，这些数据并未被公平地共享，OpenAI和谷歌的模型占据了绝大多数的用户交互数据（占比高达61.4%）。这使得它们能够利用更多的数据进行优化，甚至可能针对LMArena平台进行专门优化，从而提升排名。

更令人担忧的是，大量模型在未公开通知的情况下被从LMArena平台移除，这对开源模型的影响尤为严重。在评估的243个模型中，有205个模型未经解释就被停用，仅有47个模型被正式标记为弃用。这种缺乏透明度的模型移除机制，进一步加剧了排名的失真。

面对这些指控，LMArena团队迅速做出回应，坚决否认存在偏袒行为。他们强调，其排名系统反映了数百万真实的人类偏好，并认为提交前的测试是合法且必要的手段，旨在确定最符合用户期望的模型变体。LMArena团队还表示，他们仅依据最终公开发布的模型进行排名，且平台的源代码和数百万用户交互数据均已公开，以体现其开放的设计理念。

然而，尽管LMArena团队做出了回应，但研究人员仍坚持认为平台需要进行改革。他们呼吁LMArena公开所有测试过的模型变体、限制供应商单次提交的版本数量、确保模型在用户之间更公平地分配，并对模型移除进行清晰记录。他们警告说，如果缺乏更严格的监督，LMArena最终可能会奖励那些针对排行榜进行策略性优化的模型，而非真正性能卓越的模型。

举报 0 收藏 0 打赏 0评论 0

05-13

AI在《我的世界》自由探险：能否超越人类，成为创世神？

其核心思想是：先让智能体在真实环境中与环境交互并收集数据；再将这些数据用于更新策略和训练世界模型，使世界模型能够准确模拟环境的动态变化；最终让智能体在世界模型生成的模拟环境中进行额外的策略训练，从而减少对真实…

05-13

苹果iOS 19或推AI电池管理，iPhone续航难题有望破解？

新榜讯据知名科技记者马克·古尔曼（Mark Gurman）撰文称，有知情人士透露，苹果拟定借助人工智能（AI）技术，着力解决长期困扰用户的iPhone 电池续航问题。爆料指出，苹果计划在 9 月份发布的 …

05-13

Fortinet 2025年Q1财报亮眼：营收增13.8%，非GAAP利润率创新高

05-13

苹果iOS19将推智能电池管理，省电新招非iPhone17独享

05-13

2025福布斯中国AI企业TOP50揭晓：创新力量引领科技新纪元

05-13

AI搜索新星Perplexity：5亿美元融资在即，估值飙升至140亿美元！

05-13

昆仑万维Matrix-Game大模型：开启游戏世界智能生成新篇章

05-13

四川新设智能科技公司，智元机器人领衔布局多元AI领域

05-13

阿里巴巴新专利：大语言模型提升答复准确性

05-13

MiTAC神雲科技新推AMD EPYC 4005系列处理器服务器，赋能现代业务

05-13

国产AI智能体Manus全面开放注册，曾一票难求的内测码终成历史

05-13

腾讯混元T1-Vision赋能元宝平台，图片深度理解能力大升级！

05-13

腾讯混元新突破：T1-Vision功能上线，实现“边看图边思考”

05-13

微软Win11 Copilot新升级：AI视觉指导任务，双应用同步对比分析

05-13

点击查看更多 +

全站最新

小米胜诉！聚好看公司因商业诋毁被判赔55万

三星S25 Edge国行版来袭！7999元起售，预售期享免费升级福利

iQOO Neo10 Pro+与Pad 5系列齐发，5月20日见真章！

2024中国汽车智能化TOP50榜单揭晓，华为紧随德赛西威位居次席！

OPPO Find X9系列曝光：四款机型三种屏幕，天玑9500成主打？

AI在《我的世界》自由探险：能否超越人类，成为创世神？

热门内容

本栏最新

AI在《我的世界》自由探险：能否超越人类，成为创世神？

四川新设智能科技公司，智元机器人领衔布局多元AI领域

阿里巴巴新专利：大语言模型提升答复准确性

MiTAC神雲科技新推AMD EPYC 4005系列处理器服务器，赋能现代业务

国产AI智能体Manus全面开放注册，曾一票难求的内测码终成历史

腾讯混元T1-Vision赋能元宝平台，图片深度理解能力大升级！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.