滚动资讯

当前位置：首页 > 资讯 > 数码极客 > 正文内容

多个AI模型“组团”效果如何？KAIKAKU研究：先看β值再决定

时间：2026-06-30 04:15:02 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当企业纷纷将多个AI模型组合使用，期望通过“众人拾柴火焰高”提升效果时，一项新研究却给这种做法泼了冷水。该研究指出，当前行业普遍依赖的“错误相关性”指标存在根本性缺陷，真正决定多模型系统上限的是所有模型同时答错同一道题的概率。

这项由独立研究团队完成的工作，通过大规模实验和数学证明，揭示了多模型组合的深层逻辑。研究发现，业界常用的“ρ（rho）”指标，即两个模型犯错习惯的相似度，无法准确预测多个模型集体失败的概率。即使两个模型两两之间的错误相关性完全相同，它们同时答错同一道题的概率仍可能存在巨大差异。

研究人员引入了新指标“β（beta）”，即所有模型同时答错同一道题的概率。他们通过一个比喻解释：假设有10位专家组成顾问团，无论投票机制多么精妙，如果10人全部答错某道题，那么无论怎么组合结果都是错的。这个“全员翻车率”β，就是多模型系统准确率的天花板——系统最高准确率等于1减去β。

实验覆盖了67个前沿AI模型，包括GPT-5.5、Claude Opus 4.8等知名模型，测试题目涵盖数学竞赛题、研究生科学问题和编程题。结果显示，在数学题上，所有模型同时答错的比例β达到5.2%，这意味着系统准确率上限约为94.8%。而实际测试中，最强单个模型的准确率为83.6%，组合策略带来的提升空间远小于预期。

更关键的是，行业常用的基于ρ的预测方法严重高估了组合效果。研究人员用精确的统计工具预测β，结果预测值仅为实际值的约2.5倍。即使考虑所有模型两两之间的完整相关结构，预测偏差仍然存在。这表明，某些题目会让所有模型集体犯错，而这种集体失效的概率无法通过两两关系推断。

随着模型数量增加，这一问题愈发严重。实验显示，当模型数量从2个增加到67个时，真实β与预测β的比值从1上升到2.5。这意味着，模型池越大，基于ρ的预测越不可靠。研究人员解释，每新增一个模型，虽然可以测量其与其他模型的两两相关性，但无法捕捉整个群体“全员同时失败”的高阶结构。

针对这一问题，研究团队提出了“可实现性证书”工具。用户只需用现有模型运行一批样本题，统计所有模型全部答错的题目数量，即可通过脚本计算出系统准确率的理论上限。如果这个上限低于运维成本，则组合模型无意义。该工具已开源，任何人都可以免费使用。

实际路由系统的测试结果也支持这一结论。在15个模型的实验中，理论最优路由比单个最佳模型高出4.4个百分点，但实际训练的路由器仅提升0.5个百分点，且置信区间包含零值，说明提升可能只是统计噪声。更强的路由方案，包括基于GPT-5-mini的AI路由器，也未能超越单个最佳模型。

研究还发现，不同任务面临截然不同的困境。在数学题上，β明显大于零，系统准确率被天花板压制；而在研究生科学选择题上，β接近零，但路由器无法实现理论上的15个百分点提升，因为正确答案的信息藏在答案本身而非问题中。开放式问答比选择题更容易导致所有模型同时犯错，因为选择题提供了选项约束，而开放式问答需要模型从零生成答案，不确定性更大。

关于模型多样性，研究指出，多样性只有在模型质量相当的情况下才有益。在质量差异大的情况下，低质量模型的投票会拖累整体效果。例如，三个模型中如果一个是专家，另外两个是普通人，多数票反而会否定专家的正确答案。但在质量相当的前提下，低相关性的组合确实优于高相关性的组合。

研究团队也承认了工作的局限性。他们的分析依赖于可自动评分的任务，对于写作质量、解释能力等开放生成任务，客观评分仍是一个挑战。在编程任务上，虽然验证了β低估现象，但样本量有限，确切倍数存在不确定性。路由器的训练和测试仅在15个模型上进行，大规模测试的结论依赖β证书而非端到端实验。

更多>同类资讯

珂芝i98三模矮轴机械键盘正式发售，多样轴体与特色按键成亮点

06-30

国产高端半导体检测设备新突破：二合一显微镜填补国内空白助力产业自主可控

06-30

室外智能设备箱：以模块化、智能化创新破解户外监控运维困局

选择室外抱杆机箱时，应综合考虑以下维度：物理防护等级是否满足部署环境要求，模块化设计是否便于后期维护，智能监测功能是否覆盖供电、网络、视频等关键环节，自动故障修复能力是否完善，以及是否支持远程管理与数据统计…

06-30

MWC上海2026·6G生态展：红山科技HAPS平台，通导遥融合开启通信新未来

红山科技在通导遥融合方向上，已经形成了以HAPS平台为底座、艇载基站为核心、多源感知载荷为延伸的完整技术布局。第二个支点是通信载荷，这是我们自主建设的核心能力。总的来说，红山科技将以HAPS平台为底座，通…

06-30

零刻Mate Pro评测：五合一设计，笔记本好搭档，桌面简洁新选择

以上就是关于零刻Mate Pro的全部内容了，不难看出其“五合一”的设计都是实用设计，最关键的是只需要一条线就能实现硬盘扩展、接口扩展、高效充电等需求，如果你平时使用笔记本电脑或者迷你主机，存在文章中提到的…

06-30

新能源产业扩张下，如何精准挑选适配的工业皮带供应商？

06-30

DS推出新款DS N7 E-Tense纯电SUV 多种动力续航可选充电高效

06-30

珂芝i98三模矮轴机械键盘正式发售，多样轴体与特色设计成亮点

06-30

神舟二十三号乘组在轨满月成果丰硕，太空烤南瓜背后藏着哪些黑科技？

因为在神舟二十三号3人乘组之中，将出现1人在轨进行1年飞行，这还是我国首次进行这样的任务，进行在轨监控数据收集，就是后续执行任务的关键，而对于这一次任务之中到底谁在太空之中，当下是无法确定的。所以，虽然不…

06-29

倒计时第七十一天：姜辰填补飞行程序空白，团队齐心攻克技术难关

她走到姜辰旁边，低头看着屏幕上的那段轨迹图——一条平滑的曲线，在某个位置被标记了“姿态修正”的字样。姜映梁经过堂屋的时候，看到姜辰还在那里，面前是那台终端，屏幕上的代码比下午多了好几页。她顺口提了一句：“…

06-29

光伏回收厂盈利差异大：选对一体化处置设备是突破利润瓶颈关键

江浙沪新建厂区、老旧产线升级，不要盲目采购拼装低配设备，优选上海正规太阳能板回收设备厂家出品的一体化太阳能板处置设备，搭配适配工况的光伏板热解隧道炉、连续式光伏板隧道炉，兼顾全品类加工、环保合规、低运维成本，…

06-29

高压水枪洗车致蔚来车辆漆面受损？规范操作才是养护关键

06-29

DS N7 E-Tense纯电SUV上市最高740km续航 350马力四驱版5.4秒破百

06-29

红魔游戏平板5 Pro海外版官宣来袭，国内明日发布，配置强劲引期待

IT之家 6 月 29 日消息，红魔官方今天在 X 平台宣布，红魔游戏平板 5 Pro 将以“REDMAGIC Astra2”之名推出海外全球版，上市时间等消息将在后续公布。结合IT之家此前报道，红魔游戏…

06-29

国产高端半导体检测新突破：二合一显微镜填补空白满足全链条检测需求

月 29 日消息，据科大硅谷公众号昨日消息，安徽凌光红外科技有限公司近日发布了 LUXET VERITAS微光显微镜及激光诱导电阻变化（EMMI+OBIRCH）二合一显微镜，填补国内市场空白。 IT之家获悉…

06-29

点击查看更多 +

全站最新

TMC2026聚焦电驱油低粘化，陶氏携新技术与行业共探动力系统新未来

玛莎拉蒂新动向：手动挡或重现，V8引擎重启在评估，燃油混动双布局

比亚迪元UP焕新升级：续航达505Km，能否成为年轻人出行代步新宠？

电车电池健康度自查攻略：3种零成本方法，在家1分钟搞定无需跑门店

DS推出新款DS N7 E-Tense纯电SUV 多种动力续航可选充电高效

比亚迪大汉实车亮相！大型车身搭配双动力，纯电续航有望突破千公里

热门内容

本栏最新

DS推出新款DS N7 E-Tense纯电SUV 多种动力续航可选充电高效

高压水枪洗车致蔚来车辆漆面受损？规范操作才是养护关键

DS N7 E-Tense纯电SUV上市最高740km续航 350马力四驱版5.4秒破百

发动机积碳别忽视！出现这3个信号，及时清理让爱车更“健康”

杭州宏锐：深耕技术协同维修，新能源电机专修领域树立新标杆

一汽 - 大众探岳L PHEV来袭！16.99万起售，续航超长配置丰富

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.