六位前Google DeepMind核心成员组建的初创公司Poetiq,近日凭借其开发的元系统在人工智能领域引发关注。该系统通过动态组合前沿大模型,在抽象推理基准测试ARC-AGI-2中以54%的准确率刷新纪录,同时将单任务推理成本压缩至31美元,仅为前纪录保持者的一半。这一突破性成果已通过第三方机构ARC Prize的官方验证。
与传统大模型研发路径不同,Poetiq团队选择构建智能调度层。其核心元系统不依赖单一模型,而是通过分析任务特性自动生成解决方案,动态调用多个大模型形成协同网络。这种架构使系统在Gemini 3 Pro发布后24小时内即完成适配,并迅速取得领先成绩。测试数据显示,该系统在相同计算预算下可调用模型次数较传统方法提升3倍,在复杂任务中展现出显著优势。
技术实现层面,Poetiq采用递归强化机制。系统首先生成初步解决方案,通过多轮自我验证持续优化,最终输出经多模型交叉检验的结果。这种设计使系统在处理ARC-AGI测试集时,能自动识别需要编写代码辅助推理的场景,并精准分配任务给擅长代码生成的模型。实验表明,该系统在需要多步骤逻辑推导的题目中,准确率较单模型提升27个百分点。
成本优化方面,Poetiq开发了多层级解决方案矩阵。基础版基于开源模型GPT-OSS-120B,单题处理成本低于1美分;企业版整合Gemini 3与Grok 4等商业模型,在保持50%以上准确率的同时,将成本控制在主流方法的40%以下。特别值得关注的是,其Grok-4-Fast配置在成本降低两个数量级的情况下,仍达到与高价模型相当的推理精度。
ARC Prize官方报告显示,Poetiq系统在测试中展现出独特的自适应能力。面对不同复杂度的任务,系统会自动调整模型组合策略:简单任务优先调用轻量级模型,复杂任务则启动多模型协同推理。这种动态调度机制使系统在保持高效的同时,避免资源浪费。测试数据表明,该系统在80%的任务中实现了计算资源的最优分配。
技术团队透露,Poetiq的研发灵感源于对现有大模型局限性的观察。传统模型在处理需要多领域知识整合的复杂问题时,常因提示词敏感性导致表现波动。为此,系统特别强化了自主策略发现能力,通过让模型在模拟环境中试错,逐步演化出最优推理路径。这种进化式学习机制,使系统在未经微调的情况下即可适配新模型架构。
目前,Poetiq已开放部分技术配置的源代码,重点展示其循环验证框架和自我监控机制。开发者文档显示,系统通过内置的置信度评估模块,可实时判断推理进度,在结果可靠性达标时自动终止计算。这种设计使系统在保持高准确率的同时,将无效计算占比控制在5%以下,显著提升资源利用率。
行业分析认为,Poetiq的技术路径可能重塑AI应用开发范式。其元系统架构为解决大模型落地难题提供了新思路,特别是在需要跨模型协作的复杂场景中展现出独特价值。据悉,该团队正将技术拓展至医疗诊断、金融分析等领域,测试系统在真实世界任务中的表现。首批合作企业反馈显示,系统在处理多源异构数据时,推理效率较传统方法提升60%以上。









