六位前Google DeepMind的核心成员近日成立了一家名为Poetiq的初创公司,他们没有选择研发更大规模的模型,而是专注于构建一个能够优化现有前沿大模型调用方式的元系统。这一创新方法在解决复杂真实世界问题时展现出显著优势,同时将整体推理成本降低了一半。
在ARC-AGI-2的最新评估中,Poetiq推出的Gemini 3 Pro优化技术以54%的成绩登顶排行榜,每任务计算成本仅31美元。这一表现不仅远超此前模型的最佳水平,更在成本效益方面树立了新的行业标杆。该成果已通过ARC Prize官方验证,确认其突破性价值。
Poetiq团队由六名具有53年集体专业经验的前DeepMind研究员与工程师组成。他们提出的核心理念是:通过构建一个灵活的元系统,让任何现成的前沿模型能够自动生成针对特定任务的完整解决方案。这种架构无需开发或微调新的大型模型,而是通过智能组合现有模型资源实现性能突破。
该系统的独特之处在于其递归自我改进能力。当接入Gemini 3或GPT-5.1等新模型时,元系统能在数小时内自动生成最优策略组合。例如在ARC-AGI-1和ARC-AGI-2测试中,系统通过多次调用Gemini-3模型,在广泛计算区间内实现了帕累托最优解,既保证了准确性又控制了成本。
实验数据显示,基于Grok-4-Fast Reasoning模型构建的Poetiq方案,在成本降低两个数量级的情况下仍保持了相当的准确率。而采用开源GPT-OSS-120B模型的配置,单题处理成本甚至不到1美分,却展现出令人瞩目的性能表现。这些成果验证了元系统在不同成本目标下的强大适应能力。
技术实现层面,Poetiq完全依赖大语言模型构建系统架构。其运行流程呈现循环式特征:系统首先生成初步答案(可能包含代码),通过反馈分析后持续优化解答。这种多步骤自我完善机制,使最终答案经过反复打磨达到最佳状态。同时内置的自我监控功能可自动判断结果可靠性,避免无效计算浪费资源。
选择ARC-AGI作为测试平台,源于该基准对抽象推理、归纳逻辑和策略生成能力的综合考察。Poetiq团队认为,这种测试环境能充分验证系统在现实约束条件下的自动化优化能力。测试结果显示,系统不仅能自主发现最优推理路径,还能根据预算、算力等限制条件动态调整策略。
目前研究团队正在扩展系统的应用场景,通过攻克更多基准任务来提升系统多样性。该技术已展现出与现有大型系统协作的潜力,特别是在优化AI组件方面具有独特优势。未来研究将聚焦于如何利用前沿模型的知识储备解决长时序任务,探索在不修改模型本身的前提下提升知识提取效率的新路径。








