滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

150个任务实测30个Skill：7个发现打破你对技能增强的常规认知

时间：2026-05-22 23:26:01 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

近年来，随着大模型技术的快速发展，企业纷纷将内部工作流程转化为技能（Skill），希望通过添加这些技能，让模型在特定领域迅速具备专业能力。然而，随着技能数量的激增，一个关键问题逐渐浮现：安装技能是否真的能提升模型的表现？为了解答这一疑问，一项系统性实验在严格统一的评测标准下展开，对多个技能进行了深入分析。

实验设计涵盖了多个维度，包括任务级对比、成本与稳定性评估、规范性问题检测以及跨模型推理强度的可迁移性测试。在150组任务级对照中，安装技能的模型组仅以微弱优势胜出，胜率为41.3%，而未安装技能的裸模型组胜率为36.7%，平局占22.0%。这一结果打破了“安装技能必然提升效果”的直觉认知，表明技能的效果因具体类型而异。

进一步分析发现，某些技能如分析工具、多搜索引擎和图像封面生成器等，能够稳定带来正增益，而另一些技能如笔记记录器、旅行规划器和会议记录器等，表现甚至不如裸模型。关键在于，当技能能够补充模型原本不具备的能力，如提供清晰的输出结构、外部工具或具体可交付的产物时，它们才真正有用。反之，如果技能只是重复模型已有的功能，则可能成为负担。

实验还揭示了一个被称为“技能虹吸”的现象。在某些情况下，即使任务简单到裸模型足以应对，系统仍可能因语义上的相似性而调用相关技能。例如，一个关于关键词组合的简单请求，可能因包含“检索”和“关键词”等词汇而被吸进搜索类技能。这种过度调用不仅增加了不必要的上下文和计算成本，还可能使简单任务复杂化。

在成本方面，实验数据显示，安装技能后，模型的token消耗平均增加了48%，耗时平均增加了19%。尽管某些技能如旅行规划器和市场研究工具等，因提供了明确的流程和输出边界，反而降低了整体消耗，但大多数技能仍导致成本上升。实验还发现，更耗token的技能通常也更慢，但二者并非严格绑定，某些技能如健身教练和天气查询工具等，虽增加了token消耗，却未显著增加耗时。

规范性问题主要集中在技能的依赖关系、边界定义和资源组织上。实验共发现107条规范性问题，这些问题可能直接影响技能的复用、评测和自动化升级。例如，依赖关系不明确、边界定义过宽或资源引用缺失等问题，都可能导致技能在后续使用中出现故障。

稳定性风险则主要来自工具链的复杂性、外部调用的不确定性和长时间等待。实验表明，越依赖多步骤工具链、外部API或本地执行环境的技能，其稳定性问题越突出。例如，某些涉及文件格式处理或脚本执行的技能，其耗时主要受限于工具链的性能，而非语言模型本身。

实验还探索了模型推理强度对技能表现的影响。结果显示，提高模型推理强度通常能改善技能的表现，但收益分布不均。对推理强度更敏感的技能主要包括那些需要处理隐藏约束、进行细节核对或多步交付的任务，以及强创作类任务。而流程明确、结构性强的技能，如PDF提取工具和思维导图生成器等，则对推理强度的变化相对不敏感。

基于以上实验结果，专家建议技能开发者在开发过程中应首先建立裸模型基准线，以证明技能确实能带来收益；明确技能的适用边界，避免技能虹吸现象；控制上下文和资源加载，防止技能成为成本黑洞；将隐性约束写入流程，而非依赖模型自行理解；关注工具链、文件和外部服务带来的工程稳定性问题；并持续记录误触发、失败样本和异常耗时，以便像产品一样迭代优化技能。

更多>同类资讯

AI热潮下金属锡成“香饽饽”：半年涨40%，全球资源或仅够开采15年

06-02

"逆矩阵科技：22岁北大才俊领航，勇闯世界模型无人区创新路"

06-02

英伟达Isaac GR00T人形机器人亮相：整合宇树H2与尖端技术，2026年底面世

06-02

英伟达携手台积电：AI与加速计算赋能，开启半导体制造新篇章

06-02

OpenAI正式进军机器人领域聚焦实用型机器人研发与个人机器人愿景

06-02

矩阵超智MATRIX-3澳门首秀，展现多元场景适配力，引领人形机器人新未来

06-01

理想汽车基座模型部门再调整增设具身智能部门加速AI转型布局

06-01

稀宇科技发布MiniMax M3模型：超长上下文多模态，编程等多领域表现亮眼

6月1日，稀宇科技正式发布新一代模型MiniMax M3。该模型具备前沿编程能力、最高1M超长上下文，并支持原生多模态（图片、视频输入及电脑桌面操作），成为国内首个同时具备这三项能力的模型，也是目前唯一的开源…

06-01

OpenAI模型破解80年数学难题跨界融合开启人类探索未知新篇章

据《华尔街日报》报道，法兰西学院教授、菲尔兹奖得主蒂莫西·高尔斯表示，这个单位距离问题的解答是AI数学领域的里程碑。 OpenAI的研究团队指出，模型给出的解决方案极其反直觉，过去大多数数学家都默认埃尔德什…

06-01

国产AI新突破！MiniMax M3模型发布具备前沿能力且开源效率大提升

MiniMax披露，在100万上下文规模下，M3单token计算量仅为上一代模型的约1/20，推理效率显著提升。MiniMax披露，在100万上下文规模下，M3单token计算量仅为上一代模型的约1/20，推…

06-01

OpenAI全栈入局机器人领域！Sora之父领衔，百万年薪招揽顶尖人才

奥特曼继续写道，得益于机器人硬件与机器学习研究的协同设计，由 Aditya Ramesh 领导的世界模拟研究项目已经在过去一年中逐步演化为OpenAI Robotics。但从机器人视角看，它更像是 Ope…

06-01

OpenAI CEO官宣招募人才进军机器人领域，短期聚焦基建协助型机器人研发

OpenAI CEO萨姆·奥尔特曼（Sam Altman）今日在X平台发布OpenAI Robotics招聘信息，称公司正在招聘优秀的全栈硬件、运营、系统及机器学习工程师，研发和制造出对人类社会有用的机器人。…

06-01

OpenAI六年后重启机器人业务：以AI大模型赋能，布局未来增长新赛道

Figure认为通用大模型无法适配机器人的硬件需求，必须打造垂直整合的端到端模型；这也这促使OpenAI在时隔六年后，选择“复活”了机器人团队，亲自下场，将机器人从“投资”升级为“内部战略业务”。其技术路径可…

06-01

国产AI新突破！MiniMax M3模型发布编程多模态长上下文能力全面升级

MiniMax披露，在100万上下文规模下，M3单token计算量仅为上一代模型的约1/20，推理效率显著提升。MiniMax披露，在100万上下文规模下，M3单token计算量仅为上一代模型的约1/20，推…

06-01

越疆科技空弈DobotWAM具身大模型：测试表现优异平均成功率达99.25%

记者了解到，在具身智能标准评测基准LIBERO上，空弈DobotWAM具身大模型分别完成LIBERO-Spatial、LIBERO-Object、LIBERO-Goal和LIBERO-10四个标准任务套件，覆…

06-01

点击查看更多 +

全站最新

抖音电商强化未成年人保护：严控未成年人参与商业行为，共建清朗平台生态

欧莱雅硬刚盒马：高端美妆与新零售渠道之争，假货乱象成导火索

小米汽车2026年交付“稳”字当头：月销超3万，双线产品格局成型

AI下半场“内化”成关键，百度以全栈布局给出产业赋能新解法

“中东第一网红”阿波哥深圳坪山行：探“智造”奥秘，感无人驾驶魅力

科大讯飞推出Fika手机造型电纸书：6.13英寸墨水屏，2399元起售

热门内容

本栏最新

2026智能驾驶感决规控分会场：青年学者共探前沿，助力技术落地新篇

光智融合新篇章：华为全光园区方案引领AI时代园区网络变革

理想汽车5月交付量达33350辆，技术发布会将启全新L8月底登场

鸿华先进与联发科携手，高阶车型搭载3nm C-X1芯片开启智能座舱新篇

MG 4X上市：9.28万起开启技术平权，10万级纯电SUV市场迎新变革

MiniMax M3重磅登场：编码智能体顶尖，百万上下文原生多模态齐备

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.