在人工智能技术飞速发展的当下,大语言模型凭借强大的推理能力成为科研与产业界的焦点。然而,这些模型在展现"链式思考"能力时,往往因过度冗长的推理过程导致计算成本飙升。南京大学联合国际科研团队提出创新解决方案,通过动态调控AI的"话语量",在保持准确性的同时将推理成本降低近六成。
研究团队在arXiv平台发布的最新成果显示,当前主流AI模型在解答数学问题时存在显著的语言冗余现象。以GPT-4o-mini为例,面对"佩顿课后活动总时长"的简单问题时,无限制推理会生成258个词汇的冗长解释,而直接回答仅需15个词汇。这种"啰嗦"特性导致每次推理的平均成本高达289.78单位,其中近70%属于无效输出。
科研人员通过实验发现,当为AI设定合理的词汇预算时,其推理效率会显著提升。在GSM8K数据集测试中,设置50词汇限制可使回答精炼至86个词汇,准确率保持稳定。但过度压缩(如10词汇限制)反而会触发"词汇弹性"现象,导致AI用157个词汇进行反抗式表达。这种非线性关系促使团队开发出智能预算搜索算法。
新提出的TALE框架包含两种创新实现路径。估算提示法通过设计特殊指令,让AI自主预判回答所需词汇量,就像经验丰富的教师能快速评估题目解答篇幅。实验表明,该方法估算值与最优预算的匹配度高达92%,在保持81.03%准确率的同时,将词汇使用量压缩至148.72个,成本降低59%。
后训练法则采用"再教育"策略,先用搜索算法确定每个问题的最优预算,再通过监督微调或偏好优化训练模型。在GSM8K数据集上,经过直接偏好优化的模型用149.93个词汇即可达到74.11%的准确率,较传统方法节省46%的词汇量。这种训练方式如同教会司机经济驾驶,使模型自然形成简洁表达习惯。
跨模型验证显示,TALE框架具有广泛适用性。在Yi-lightning模型上,词汇使用量从998.10锐减至373.52,成本下降20%;GPT-4o的推理成本更是从1359.42降至759.95。特别值得注意的是,在GSM8K数据集的某些测试中,精炼后的回答准确率反而提升3.11个百分点,证明冗余信息确实可能干扰推理质量。
该研究突破传统思维定式,首次将"计算经济学"理念引入AI推理领域。通过建立隐式单调性假设,团队证明90.91%的数学问题存在成本-准确率的帕累托最优解。二分搜索算法的应用使预算定位效率提升80%,平均每个样本的处理时间从10.2秒缩短至2.3秒。
尽管成果显著,研究团队也指出当前方法的局限性。多模态AI系统的预算分配尚未解决,约10%的复杂问题不完全符合单调性假设,且估算提示法存在轻微延迟。针对这些问题,团队正在开发更精细的搜索策略,并探索图像复杂度与文本长度的联合优化方案。
这项研究为AI效率优化开辟了新路径。在移动端和嵌入式设备快速普及的背景下,TALE框架提供的成本压缩方案具有重要现实意义。当AI能够用更经济的资源消耗提供同等质量服务时,技术普及的门槛将大幅降低,这或许将推动整个社会加速进入智能时代。










