在人工智能领域,一股新的潮流正悄然兴起,这股潮流的主角并非人们耳熟能详的超大规模语言模型(LLM),而是小型语言模型(SLM)。最近,英伟达与佐治亚理工学院的研究人员联合发表了一篇题为《小型语言模型是智能体AI的未来》的论文,大胆挑战了当前以LLM为核心构建智能体的主流方式。
论文指出,尽管LLM在诸多方面展现出强大的能力,但其高昂的成本和潜在的效率低下问题不容忽视。相比之下,SLM在多数实际场景中不仅能力足够,而且更加易于管理和维护,同时成本更低。这一观点颠覆了人们普遍认为“大脑越强,智能体就越聪明”的传统逻辑。
为了证明这一观点,论文作者提供了一系列小而强的SLM样本。例如,Phi-2(2.7B)在常识推理和代码生成方面能够追平30B级别的模型,同时推理速度更快;而Nemotron-H(2/4.8/9B)则在指令跟随和代码生成上与30B密集模型相当,但推理算力仅需十分之一左右。这些实例充分展示了SLM在特定任务上的卓越表现。
在工程实践方面,SLM也展现出了独特的优势。由于Agent系统本质上只需要语言模型的窄切片功能,如解析意图、抽取字段、调用函数等,SLM的可控性、稳定性和格式对齐性使其成为更理想的选择。SLM更容易实现微服务化,使得系统更加灵活和可扩展。
经济性方面,SLM同样具有压倒性的优势。在大多数调用场景中,SLM的延迟、能耗和浮点运算数(FLOPs)都优于LLM,整体成本占比更低。这使得SLM成为工程团队在构建智能体时的首选方案。
然而,这并不意味着LLM将完全被SLM取代。在某些需要高度复杂对话和规划的场景中,LLM仍然发挥着不可替代的作用。因此,论文作者提出了“SLM-first,LLM-as-needed”的系统设定,即在大多数情况下默认使用SLM,必要时再调用LLM。
为了实现从LLM到SLM的迁移,论文作者还提供了一个详细的转型清单。这包括安全埋点记录模型调用、数据清洗和脱敏、任务聚类找出重复性高的子任务、模型选型为每个子任务挑选合适的SLM、专科微调使用任务数据进行训练、以及迭代路由将SLM接入生产路由并与LLM进行灰度测试等步骤。
尽管在迁移过程中可能会遇到一些挑战,如基础设施惯性、训练与评测脱节以及市场认知偏差等,但论文作者也提供了相应的对策。例如,从边缘/本地与微服务后排开始非侵入式替换、引入任务内指标以反映Agent的真实效用、以及用可视化仪表盘展示成本节约和错误减少等成果。
最后,论文作者提出了一个可落地的系统形态,包括HCI/对话层、执行器层和工具层。在这一形态中,LLM负责开放式对话与复杂规划(可选),而执行器层则由若干SLM专家负责处理抽取、路由、工具调用等任务。这一系统形态为工程团队提供了清晰的构建指南。