滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

上海科大与北京通用AI研究院联合攻关，助AI“解题”突破思维定式

时间：2026-05-08 04:54:06 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当大型语言模型被要求生成多个答案时，常常陷入“表面多样、内核重复”的困境——看似不同的表述背后，推理路径却高度相似。上海科技大学与北京通用人工智能研究院联合提出“探索性采样”（Exploratory Sampling，ESamp）技术，通过在模型内部植入“新鲜感探测器”，让AI主动探索未曾涉足的思维路径，在数学推理、科学问答、编程挑战和创意写作等任务中显著提升答案多样性。

传统测试时扩展策略通过生成多个候选答案并筛选最优解，但若候选答案仅停留在文字层面的差异，实际解题思路趋同，则无法突破能力瓶颈。例如，在数学竞赛中，若64个答案均基于同一变量设定和解题框架，即使措辞不同，系统性错误仍会导致所有尝试失效。现有解决方案中，结构化搜索方法（如思维树）计算成本高昂，启发式采样（如调高温度参数）则仅能引入表面随机性，无法触及语义层面的多样性。

研究团队从人类学习行为中汲取灵感：人在陌生领域更易犯错，而熟悉场景则得心应手。ESamp通过监测模型深层神经网络的“语义表征”——即模型处理文本后形成的抽象思维坐标——来量化当前思路的新鲜度。若两个答案的深层表征在语义空间中距离相近，则表明推理路径高度重叠；反之则代表真正不同的解题方向。

核心创新在于引入轻量级“潜在蒸馏器”（Latent Distiller），这是一个仅含两层神经网络的小型模块，消耗显存不足200MB。蒸馏器通过预测模型深层输出与实际结果的误差，实时追踪AI的思维轨迹：当AI进入熟悉领域时，预测误差小，探索信号弱；当踏入陌生区域时，误差急剧增大，触发探索机制。这一设计借鉴了强化学习中的随机网络蒸馏算法，将地图探索逻辑迁移至语言生成场景。

数学上，ESamp将语言生成建模为马尔可夫决策过程，通过优化带KL散度约束的目标函数，将新鲜感信号转化为词语选择的实际权重。具体公式为：新评分 = (1+β) × 原始评分 - β × 蒸馏器评分，其中β为控制探索力度的超参数。该公式包含两层机制：一是根据整体误差大小调节探索强度，误差越大则推动AI更强烈地转向未知领域；二是通过误差向量与候选词向量的余弦相似度，精准提升能引导至新语义区域的词汇概率。

在批量生成场景中，ESamp展现出独特的协同效应。当AI同时生成16个或64个答案时，所有序列共享同一个蒸馏器，形成隐式协调机制：首个序列探索某片语义区域后，蒸馏器迅速“标记”该区域为熟悉地带，后续序列因探索奖励减弱而自动转向其他方向。这种“先到先得”的资源分配策略，无需序列间显式通信，仅通过参数更新即实现高效分工。实验数据显示，在创意写作任务中，ESamp生成的答案平均两两余弦相似度持续下降，而传统方法在初期下降后迅速停滞。

针对计算效率的担忧，研究团队设计异步流水线架构，充分利用模型生成过程中的空闲时段：蒸馏器推理与中间层计算并行执行，训练则安排在CPU处理采样任务的间隙完成。在标准Llama-3-8B模型上，蒸馏器计算耗时不足0.5毫秒，远低于中间层15-20毫秒的运算时间。开源版本通过Triton语言优化GPU内核、筛选候选词干预范围等手段，使ESamp在RTX 4090上的吞吐量仅比基准模型慢1.2%，多用户高并发场景下开销也控制在4.25%以内。

实证研究覆盖四大领域：数学竞赛（AIME 2024/2025）、科学问答（GPQA-Diamond）、编程挑战（LiveCodeBench v5）和创意写作（BookCorpus）。在AIME数学竞赛中，GPT-OSS-20B模型使用ESamp仅需8个样本即可达到其他方法64个样本的准确率，效率提升8倍；在创意写作任务中，ESamp同时实现最高Vendi多样性分数、最低语义相似度和最低困惑度，打破“多样性与连贯性不可兼得”的局限。消融实验表明，语义空间操作、公式设计及噪声结构化等关键组件均对性能提升至关重要。

以一道涉及徒步距离与咖啡馆停留时间的数学题为例，ESamp生成的16个答案包含代数消元法、二次方程建模、试错策略、单位转换及自我纠错过程等多种解法，而传统方法生成的答案几乎全部遵循同一解题流程。单盲评测中，由Gemini 3 Flash Preview担任裁判的2000组对比实验显示，ESamp在多样性和质量排名上均显著优于基线方法，验证了其生成内容的意义性与自然度。

该技术无需改造训练流程或重新训练模型，仅需在推理阶段插入解码策略即可适配各类大型语言模型。对于用户而言，这意味着在解数学题、写代码或进行科学分析时，相同次数的尝试将获得更高质量的候选集，正确答案的发现概率大幅提升，而无需承担额外的时间或计算成本。研究团队已公开论文全文及开源代码，为构建更高效的AI测试时扩展系统提供实用工具。

更多>同类资讯

全球首台双核中性原子量子计算机“汉原2号”发布，量子计算迎新里程碑

05-08

Claude Code负责人切尔尼：正为“氛围编程”寻找更贴切替代词

05-08

寒序科技携手三星：亚洲首例8nm eMRAM AI芯片流片国产端侧AI迎新突破

05-08

宇树科技UniStore开放：搭建人形机器人应用生态，推动多领域快速落地

05-08

宇树UniStore共享应用平台开放多款机型支持云端一键部署动作

05-08

工业母机概念股走强！国产机床加速突破高端制造自主化进程提速

05-08

豆包开启分层付费模式：AI商业逻辑从流量向效能转型探路

05-08

AI产业链强势领涨通信ETF超4%，煤炭油气走弱相关ETF跌幅超4%

05-08

科技驱动环卫变革：致天科技数智化方案开启城市清洁管理新篇章

05-08

苹果大幅上调MacBook Neo产量目标，芯片供应与成本压力待解

05-08

华为技术有限公司申请注册“华为云OFFICECLAW”等商标处于等待实质审查阶段

05-07

众擎机器人注册资本增至320.7万经营范围广泛股东结构多元

05-07

Snap与Perplexity4亿美元合作“和平分手” 用户增长亮眼但四月裁员千人

05-07

Mininglamp开源两大利器：Cider与Mano-P，Mac端侧AI体验全面升级

05-07

Genesis AI发布GENE-26.5模型：单模型驱动机器人，复杂任务自主完成成现实

05-07

点击查看更多 +

全站最新

Burberry全新运动装系列来袭：经典格纹融合动感设计演绎户外新风尚

索尼创立80周年大庆：东京银座特展启幕，联名乐高积木限量发售

流量太贵不用愁！10个免费推广引流平台，助你精准触达目标客户

胖东来模式难复制：2025年多家“学徒”企业亏损关店，转型之路坎坷

宇树科技UniStore开放：搭建人形机器人应用生态，推动多领域快速落地

电商人必看！AI全流程工作流如何打通内容生产堵点，实现降本增效？

热门内容

本栏最新

宇树科技UniStore开放：搭建人形机器人应用生态，推动多领域快速落地

豆包开启分层付费模式：AI商业逻辑从流量向效能转型探路

福田汽车2026年4月销量亮眼中重卡增势强劲新能源与海外业务双突破

福田汽车2026年4月销量亮眼：中重卡增近五成新能源与海外销售双增长

米哈游全资成立新公司注册资本千万聚焦游戏与科技开发

FF战略调整：Super One升级800V架构，AIHER混增项目加速推进

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.