春节期间,一场别开生面的“科研马拉松”在AI领域悄然展开。主角并非传统意义上的科研人员,而是一套名为FARS的全自动研究系统。这套由Analemma公司开发的系统,在连续228小时28分33秒的公开运行中,自主完成了从假设提出到论文撰写的全流程,共生成244个研究假设,产出100篇短论文,平均每两小时就有一篇新作问世。
FARS的设计突破了传统科研模式,采用多智能体架构,包含四个核心模块:构思模块负责文献调研与假设生成,规划模块设计实验方案,实验模块执行代码编写与运行,写作模块完成论文撰写。这种模块化设计使系统能够并行处理多个研究项目,形成一条高效的“科研装配线”。为支持系统运行,Analemma为其配备了160张显卡的计算集群,并允许调用各类开源和闭源大模型,实验条件远超普通高校实验室。
在约9.5天的运行周期内,系统累计消耗114亿Token,总成本约75万元人民币。按归一化计算,每篇论文平均耗时2小时17分钟,成本约1000美元,消耗1亿多Token。这种产能与人类科研周期形成鲜明对比——传统学术界完成一篇论文通常需要3至6个月。然而,高吞吐量也带来高计算成本,FARS的Token消耗明显高于普通写作生成或复杂Agent任务,显示其仍处于“算力换智能”阶段。
论文质量评估方面,研究团队采用斯坦福大学开发的AI审稿系统Agentic Reviewer,参照ICLR评审标准对100篇论文进行打分。结果显示,论文平均得分为5.05分(满分未知),分数主要集中在5分附近,少量论文突破6分。作为对比,ICLR 2026人类投稿平均分为4.21分,被接收论文平均分为5.39分。这表明FARS的产出质量已超过人类投稿整体水平,但与顶尖会议录取标准仍存在差距。团队强调,此次评估以短论文为主,未针对特定学术会议标准优化,结果仅供参考。
具体案例分析进一步揭示了系统的研究能力。在编号FA0042的论文中,FARS针对文本嵌入领域的经典矛盾——双向注意力质量高但破坏KV缓存,因果注意力效率高但表示能力弱——提出工程化解决方案:训练阶段使用双向模型获取高质量,推理阶段切换为因果模型保证效率,并通过渐进过渡技术避免分布漂移。实验结果显示,该方案在流式推理延迟和长文档检索任务上表现优异,学生模型甚至在部分指标上超越教师模型。更引人注目的是,系统在论文中集成了蚂蚁集团3天前发布的GG-SM技术,展现了极强的前沿跟踪能力。
并非所有实验都取得成功。在编号FA0121的论文中,FARS尝试解决DeepSeek Engram架构中的“冷热偏置”问题,提出通过反事实门控监督修复门控机制。尽管方案设计严谨,实验设计严密,但最终结果仅带来微小提升,甚至不如增加训练步数有效。论文未回避负面结果,而是通过诊断性实验深入分析失败原因,指出门控与嵌入训练的耦合性导致简单监督无效。这种“算法诚实”获得专业网友认可,被视为学术界稀缺的品质。
随着FARS“直播真人秀”数据公开,学术社区展开热烈讨论。焦点逐渐从单篇论文质量转向系统科研产能。许多观察者指出,真正具有冲击力的不是某篇论文的惊艳程度,而是系统展现出的持续运转能力——它能够稳定提出假设、完成实验、输出成稿,标志着AI开始具备科研工业化的雏形。有技术评论认为,LLM在论文写作上的能力已基本成熟,差距主要在于工程实现细节,预计3个月内可能出现完善的自动论文生成流水线。
这种预期也引发反思:当科研实现规模化自动生产,人类的独特价值何在?有观点认为,决定研究上限的仍是研究者的品味与洞察力;也有人主张,算力应集中投入真正困难的开放问题,而非批量生产普通会议论文。无论如何,FARS的实践证明,端到端自动科研系统已能在稳定运行条件下持续产出具有一定竞争力的学术成果,并具备自我纠错与负结果报告能力。这标志着自动化科研从概念验证进入现实应用阶段,尽管当前系统在突破性研究选择、思想深度与算力效率上仍有提升空间,但其展现的“无限心智生产线”潜力已不容忽视。











