ITBear旗下自媒体矩阵:

唐杰深夜发声:AI突破长周期任务,或开启从工具到“承包商”新纪元

   时间:2026-05-15 00:50:42 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

随着智谱股价在资本市场掀起一阵狂潮,单日暴涨36.9%,收于1150港元并创下历史新高,这家国内AI企业的动态引发了行业内外的高度关注。自1月8日以116.20港元发行价上市以来,其股价在四个多月内飙升900%,背后既有市场对AI赛道的高度期待,也与其创始人唐杰的技术观点与战略布局密切相关。就在股价暴涨前不到24小时,唐杰在社交平台X上发布的长文,将“长周期任务”这一概念推至聚光灯下。

所谓“长周期任务”,在AI领域并非新词,但唐杰的解读赋予其新的内涵。英文原文“Long-Horizon Tasks”直译为“长视野”,但在技术语境中,它特指那些需要跨越长时间、多步骤、复杂中间状态才能完成的任务。唐杰认为,2026年AI的突破点可能不在于模型变得更“聪明”,而在于能否持续完成这类任务。一旦模型具备规划、试错、判断和交付的能力,其冲击的将不仅是程序员效率,而是整个人类执行层——从辅助工具升级为结果承包商。

以黑客漏洞挖掘为例,这一过程涉及阅读代码、理解架构、搭建环境、构造攻击输入、验证漏洞并撰写报告,充满试错与经验依赖。唐杰指出,若AI能在这种对抗性领域站稳脚跟,对程序员、数据分析师等职业的冲击将更猛烈,因为这些任务虽复杂,但对抗性较弱、经验依赖度低,更易被系统化流程覆盖。衡量AI的标准正从“对话能力”转向“长周期任务完成能力”:一个模型可能在单次对话中表现完美,却在8小时持续任务中频繁出错;另一个模型虽单次回答不够精彩,却能稳定推进任务、记住每一步结果并在遇阻时自动调整路径——后者的价值显然更高。

技术层面,唐杰认为长周期任务的实现得益于三大突破。首先是记忆能力的提升,百万级上下文窗口和RAG技术成熟,使模型能长时间保持对项目背景、历史尝试和用户偏好的记忆。例如,Claude Opus 4.7支持100万token上下文窗口,GLM-5.1支持20万token,这意味着模型可在一个会话中记住数十万字代码、文档或对话历史,避免因任务过长而丢失目标或重复失败方案。其次是持续学习能力的进化,尽管真正的持续学习仍困难,但模型更新周期已缩短至月度甚至可能明年实现周更新,使其能快速吸收新工具、API和业务规则,跟上现实世界变化速度。最后是自我判断与进化能力,唐杰推测Claude已具备基础自训练能力,模型可自行写代码、清洗数据、生成合成数据并训练自己,从而判断答案可靠性、决定是否重试或回滚——这一能力在长周期任务中至关重要,因无人监督时模型需自主决策。

然而,自我进化也带来风险:当模型自行生成训练数据并评估效果时,人类对其训练过程的控制力下降,如何确保其不偏离人类价值观成为新课题。唐杰认为,这些能力将通过工程化“技巧”快速实现,如更精细的prompt工程、强化学习和工具集成。智谱的GLM-5.1在SWE-Bench Pro上得分58.4%,超过GPT-5.4的57.7%和Claude Opus 4.6的57.3%,正是工程化迭代的结果。

作为智谱创始人兼首席科学家,唐杰的推文不仅是技术观察,更隐含战略宣言。智谱在国内大模型阵营中以技术扎实、商业化谨慎著称,既不像Kimi靠C端爆款快速扩张,也不像阿里、百度依赖庞大生态,而是选择“模型能力先行,应用场景跟进”的路线——先强化基座模型,再通过API、私有化部署和行业解决方案变现。长周期任务这一赛道参与者较少,格局未定,OpenAI的GPT-5.5和Claude Opus 4.7虽定位“自主任务执行”,但尚未展现压倒性优势,为智谱提供了追赶机会。

唐杰进一步提出“NPC”概念,认为长周期能力将推动从“OPC”(一人公司,即“人加AI工具”)向“NPC”(无人公司,即“AI系统加人类监督”)转变。在NPC模式中,人的角色从执行者变为目标设定者、资源配置者和责任承担者,真正被替代的是中间执行层。智谱GLM-5.1的技术白皮书显示,该模型已能持续独立作业8小时,单次任务稳定执行1200-1700步操作,无需人工干预。但要真正落地,还需针对不同行业深度定制:软件开发需代码理解和测试执行,法律行业需文档检索和合规检查,金融行业需数据分析和风险评估。智谱的开源策略旨在构建生态,吸引开发者贡献工具、企业提供场景、监管机构制定标准,从而将模型打包成可直接上手的agent工具箱。

基于长周期任务的判断,唐杰预言未来可能跨越APP概念,直接进入“LLM OS”(大语言模型操作系统)时代。在LLM OS中,应用按需生成,用户不再管理文件、窗口和按钮,而是管理任务、权限和结果。例如,用户无需打开邮件APP点击按钮,只需告诉系统“给张三发邮件告知项目进度”,系统会自动组合工具、数据和界面完成任务。这一模式挑战了80年来的冯诺依曼架构——传统操作系统管理文件和进程,而LLM OS管理任务和权限,用户无需知道数据位置或程序选择,只需表达意图并等待结果。

不过,实现这一愿景困难重重。首先,自然语言的模糊性和多义性要求模型具备强大的语义理解能力,并结合上下文、用户历史和当前状态推断意图。其次,高层目标需分解为多个子任务,每个子任务需调用不同工具,涉及API、参数和错误处理方式的差异。例如,“发邮件”需查找邮箱地址、生成内容、选择发送时间并处理失败情况。最后,工具调用需系统能调用成千上万种服务,每个工具有不同接口和逻辑。唐杰也提到监管挑战:当AI独立完成任务并造成损失,责任应由开发者、使用者还是AI本身承担?2026年4月,PocketOS的Cursor编程agent因误删生产数据库和备份导致事故,暴露了现有法律框架的空白。执行层岗位被替代可能引发失业潮,更深层的变化是社会分工被重新改写——AI不再只是辅助工具,而是成为工作流本身的一部分。唐杰认为,长周期任务虽非AGI的全部,但可能是其首次真正进入现实世界、重构人类社会的方式。当AI从回答问题转向承包结果,历史性的转折点或许已悄然来临。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version