ITBear旗下自媒体矩阵:

对话小宿科技杜知恒:智能搜索省Token有妙招,选对模型是关键

   时间:2026-05-12 13:18:14 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在AI Agent应用蓬勃发展的当下,开发者们正面临一个棘手的问题:Token成本居高不下,甚至远超预期。许多团队发现,一个用户请求往往触发多轮工具调用,每次调用都携带超长上下文,导致实际API成本飙升,有时竟达到订阅费用的数十倍。这种状况不仅让开发者头疼,更让整个行业的商业模式面临挑战——如果连Token成本结构都算不清,Agent应用如何走向市场?

问题的根源并非Token价格过高,而在于大量Token被浪费在不必要的地方。重复搜索、低质量上下文、信息粒度不匹配、模型选择不当,这些因素共同推高了成本。小米MiMo大模型负责人罗福莉曾指出,Agent时代不属于消耗最多算力的人,而属于最会使用算力的人。她呼吁每个AI从业者都应建立自己的“Token经济学”,以优化资源利用。

在这一背景下,智能搜索成为降低成本的关键环节。与传统搜索引擎不同,Agent调用的搜索服务并非为了“浏览信息”,而是为了获取执行任务所必需的“原材料”。例如,当Agent规划一次新加坡亲子度假时,它需要快速抓取签证、航班、酒店价格、儿童设施、天气和安全性等信息,而非像人类一样逐条点击比较。这种需求推动了智能搜索的进化——优化目标从点击率转向信息完整性、可信度和可追溯性。

然而,Agent不点击链接的特性给搜索优化带来了挑战。传统搜索引擎依赖点击率进行迭代,而Agent的反馈则来自客户本身——当Agent质量不佳时,用户会追问、给出差评或反复处理同一问题。这些信号成为优化搜索的重要依据,但前提是建立与客户的深度信任。客户需愿意共享反馈数据,而搜索提供商则需具备基础能力,如接近Bing的水平,才能赢得客户的合作。

在技术层面,将搜索与推理解耦是降低成本的另一关键策略。许多开发者直接使用模型自带的搜索能力,如联网的GPT,但单独拆出搜索层往往更具性价比。推理可能产生幻觉,且消耗大量Token,而搜索虽不能保证100%准确,但错误率远低于推理,且成本更低。例如,在旅行规划任务中,Agent可先用推理拆解子问题,再调用搜索或专用工具获取信息,最后用推理整合结果。这种结构——推理拆解→多层搜索与工具调用→推理整合——能显著提升效率。

搜索结果的输出形式也需根据场景定制。时延优先的场景,如chatbot实时回复,应提供短摘要;质量优先的场景,如学术研究,则需完整内容。这种灵活性源于对客户需求的深入理解,而非单方面决定。

模型选择同样是优化成本的重要环节。随着模型数量增加,开发者需避免“一刀切”的策略。不同任务对模型能力、稳定性和成本的要求各异——分类、抽取等标准化任务可用低配模型,而复杂理解、长链路决策等任务则需高配模型。关键在于拆解任务,明确每个环节的需求,再匹配相应模型,而非盲目追求“最强模型”。

将搜索从模型中解耦能显著降低成本。模型内绑搜索会导致搜索结果成为长上下文的“包袱”,在后续推理中被反复携带,成本从“一次查询”放大为“多轮消耗”。对搜索结果的二次处理(如摘要、压缩)可能额外消耗Token,甚至丢失关键信息。缓存命中率也会因搜索结果的动态性而降低。解耦后,通过前置结构化处理(如提取关键片段重组内容),可降低约30%的Token成本,同时保持95%的信息覆盖率。

对于希望降低Token成本的Agent团队,建议优先优化搜索和上下文组织,而非急于更换模型。搜索结果过长、重复或未结构化,会导致模型处理无效Token,即使更换模型也难以解决问题。理顺输入和链路后,再优化模型选择,才能实现稳定降本。短期看,搜索和上下文治理效果显著;长期则需结合信息治理和推理能力分配,形成体系化优化。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version