唐杰深夜发声：AI突破长周期任务，或开启从工具到“承包商”新纪元-业界动态-ITBear科技资讯

随着智谱股价在资本市场掀起一阵狂潮，单日暴涨36.9%，收于1150港元并创下历史新高，这家国内AI企业的动态引发了行业内外的高度关注。自1月8日以116.20港元发行价上市以来，其股价在四个多月内飙升900%，背后既有市场对AI赛道的高度期待，也与其创始人唐杰的技术观点与战略布局密切相关。就在股价暴涨前不到24小时，唐杰在社交平台X上发布的长文，将“长周期任务”这一概念推至聚光灯下。

所谓“长周期任务”，在AI领域并非新词，但唐杰的解读赋予其新的内涵。英文原文“Long-Horizon Tasks”直译为“长视野”，但在技术语境中，它特指那些需要跨越长时间、多步骤、复杂中间状态才能完成的任务。唐杰认为，2026年AI的突破点可能不在于模型变得更“聪明”，而在于能否持续完成这类任务。一旦模型具备规划、试错、判断和交付的能力，其冲击的将不仅是程序员效率，而是整个人类执行层——从辅助工具升级为结果承包商。

以黑客漏洞挖掘为例，这一过程涉及阅读代码、理解架构、搭建环境、构造攻击输入、验证漏洞并撰写报告，充满试错与经验依赖。唐杰指出，若AI能在这种对抗性领域站稳脚跟，对程序员、数据分析师等职业的冲击将更猛烈，因为这些任务虽复杂，但对抗性较弱、经验依赖度低，更易被系统化流程覆盖。衡量AI的标准正从“对话能力”转向“长周期任务完成能力”：一个模型可能在单次对话中表现完美，却在8小时持续任务中频繁出错；另一个模型虽单次回答不够精彩，却能稳定推进任务、记住每一步结果并在遇阻时自动调整路径——后者的价值显然更高。

技术层面，唐杰认为长周期任务的实现得益于三大突破。首先是记忆能力的提升，百万级上下文窗口和RAG技术成熟，使模型能长时间保持对项目背景、历史尝试和用户偏好的记忆。例如，Claude Opus 4.7支持100万token上下文窗口，GLM-5.1支持20万token，这意味着模型可在一个会话中记住数十万字代码、文档或对话历史，避免因任务过长而丢失目标或重复失败方案。其次是持续学习能力的进化，尽管真正的持续学习仍困难，但模型更新周期已缩短至月度甚至可能明年实现周更新，使其能快速吸收新工具、API和业务规则，跟上现实世界变化速度。最后是自我判断与进化能力，唐杰推测Claude已具备基础自训练能力，模型可自行写代码、清洗数据、生成合成数据并训练自己，从而判断答案可靠性、决定是否重试或回滚——这一能力在长周期任务中至关重要，因无人监督时模型需自主决策。

然而，自我进化也带来风险：当模型自行生成训练数据并评估效果时，人类对其训练过程的控制力下降，如何确保其不偏离人类价值观成为新课题。唐杰认为，这些能力将通过工程化“技巧”快速实现，如更精细的prompt工程、强化学习和工具集成。智谱的GLM-5.1在SWE-Bench Pro上得分58.4%，超过GPT-5.4的57.7%和Claude Opus 4.6的57.3%，正是工程化迭代的结果。

作为智谱创始人兼首席科学家，唐杰的推文不仅是技术观察，更隐含战略宣言。智谱在国内大模型阵营中以技术扎实、商业化谨慎著称，既不像Kimi靠C端爆款快速扩张，也不像阿里、百度依赖庞大生态，而是选择“模型能力先行，应用场景跟进”的路线——先强化基座模型，再通过API、私有化部署和行业解决方案变现。长周期任务这一赛道参与者较少，格局未定，OpenAI的GPT-5.5和Claude Opus 4.7虽定位“自主任务执行”，但尚未展现压倒性优势，为智谱提供了追赶机会。

唐杰进一步提出“NPC”概念，认为长周期能力将推动从“OPC”（一人公司，即“人加AI工具”）向“NPC”（无人公司，即“AI系统加人类监督”）转变。在NPC模式中，人的角色从执行者变为目标设定者、资源配置者和责任承担者，真正被替代的是中间执行层。智谱GLM-5.1的技术白皮书显示，该模型已能持续独立作业8小时，单次任务稳定执行1200-1700步操作，无需人工干预。但要真正落地，还需针对不同行业深度定制：软件开发需代码理解和测试执行，法律行业需文档检索和合规检查，金融行业需数据分析和风险评估。智谱的开源策略旨在构建生态，吸引开发者贡献工具、企业提供场景、监管机构制定标准，从而将模型打包成可直接上手的agent工具箱。

基于长周期任务的判断，唐杰预言未来可能跨越APP概念，直接进入“LLM OS”（大语言模型操作系统）时代。在LLM OS中，应用按需生成，用户不再管理文件、窗口和按钮，而是管理任务、权限和结果。例如，用户无需打开邮件APP点击按钮，只需告诉系统“给张三发邮件告知项目进度”，系统会自动组合工具、数据和界面完成任务。这一模式挑战了80年来的冯诺依曼架构——传统操作系统管理文件和进程，而LLM OS管理任务和权限，用户无需知道数据位置或程序选择，只需表达意图并等待结果。

不过，实现这一愿景困难重重。首先，自然语言的模糊性和多义性要求模型具备强大的语义理解能力，并结合上下文、用户历史和当前状态推断意图。其次，高层目标需分解为多个子任务，每个子任务需调用不同工具，涉及API、参数和错误处理方式的差异。例如，“发邮件”需查找邮箱地址、生成内容、选择发送时间并处理失败情况。最后，工具调用需系统能调用成千上万种服务，每个工具有不同接口和逻辑。唐杰也提到监管挑战：当AI独立完成任务并造成损失，责任应由开发者、使用者还是AI本身承担？2026年4月，PocketOS的Cursor编程agent因误删生产数据库和备份导致事故，暴露了现有法律框架的空白。执行层岗位被替代可能引发失业潮，更深层的变化是社会分工被重新改写——AI不再只是辅助工具，而是成为工作流本身的一部分。唐杰认为，长周期任务虽非AGI的全部，但可能是其首次真正进入现实世界、重构人类社会的方式。当AI从回答问题转向承包结果，历史性的转折点或许已悄然来临。