ITBear旗下自媒体矩阵:

多个AI模型“组团”效果如何?KAIKAKU研究:先看β值再决定

   时间:2026-06-30 04:15:02 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当企业纷纷将多个AI模型组合使用,期望通过“众人拾柴火焰高”提升效果时,一项新研究却给这种做法泼了冷水。该研究指出,当前行业普遍依赖的“错误相关性”指标存在根本性缺陷,真正决定多模型系统上限的是所有模型同时答错同一道题的概率。

这项由独立研究团队完成的工作,通过大规模实验和数学证明,揭示了多模型组合的深层逻辑。研究发现,业界常用的“ρ(rho)”指标,即两个模型犯错习惯的相似度,无法准确预测多个模型集体失败的概率。即使两个模型两两之间的错误相关性完全相同,它们同时答错同一道题的概率仍可能存在巨大差异。

研究人员引入了新指标“β(beta)”,即所有模型同时答错同一道题的概率。他们通过一个比喻解释:假设有10位专家组成顾问团,无论投票机制多么精妙,如果10人全部答错某道题,那么无论怎么组合结果都是错的。这个“全员翻车率”β,就是多模型系统准确率的天花板——系统最高准确率等于1减去β。

实验覆盖了67个前沿AI模型,包括GPT-5.5、Claude Opus 4.8等知名模型,测试题目涵盖数学竞赛题、研究生科学问题和编程题。结果显示,在数学题上,所有模型同时答错的比例β达到5.2%,这意味着系统准确率上限约为94.8%。而实际测试中,最强单个模型的准确率为83.6%,组合策略带来的提升空间远小于预期。

更关键的是,行业常用的基于ρ的预测方法严重高估了组合效果。研究人员用精确的统计工具预测β,结果预测值仅为实际值的约2.5倍。即使考虑所有模型两两之间的完整相关结构,预测偏差仍然存在。这表明,某些题目会让所有模型集体犯错,而这种集体失效的概率无法通过两两关系推断。

随着模型数量增加,这一问题愈发严重。实验显示,当模型数量从2个增加到67个时,真实β与预测β的比值从1上升到2.5。这意味着,模型池越大,基于ρ的预测越不可靠。研究人员解释,每新增一个模型,虽然可以测量其与其他模型的两两相关性,但无法捕捉整个群体“全员同时失败”的高阶结构。

针对这一问题,研究团队提出了“可实现性证书”工具。用户只需用现有模型运行一批样本题,统计所有模型全部答错的题目数量,即可通过脚本计算出系统准确率的理论上限。如果这个上限低于运维成本,则组合模型无意义。该工具已开源,任何人都可以免费使用。

实际路由系统的测试结果也支持这一结论。在15个模型的实验中,理论最优路由比单个最佳模型高出4.4个百分点,但实际训练的路由器仅提升0.5个百分点,且置信区间包含零值,说明提升可能只是统计噪声。更强的路由方案,包括基于GPT-5-mini的AI路由器,也未能超越单个最佳模型。

研究还发现,不同任务面临截然不同的困境。在数学题上,β明显大于零,系统准确率被天花板压制;而在研究生科学选择题上,β接近零,但路由器无法实现理论上的15个百分点提升,因为正确答案的信息藏在答案本身而非问题中。开放式问答比选择题更容易导致所有模型同时犯错,因为选择题提供了选项约束,而开放式问答需要模型从零生成答案,不确定性更大。

关于模型多样性,研究指出,多样性只有在模型质量相当的情况下才有益。在质量差异大的情况下,低质量模型的投票会拖累整体效果。例如,三个模型中如果一个是专家,另外两个是普通人,多数票反而会否定专家的正确答案。但在质量相当的前提下,低相关性的组合确实优于高相关性的组合。

研究团队也承认了工作的局限性。他们的分析依赖于可自动评分的任务,对于写作质量、解释能力等开放生成任务,客观评分仍是一个挑战。在编程任务上,虽然验证了β低估现象,但样本量有限,确切倍数存在不确定性。路由器的训练和测试仅在15个模型上进行,大规模测试的结论依赖β证书而非端到端实验。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version