当大型语言模型被要求生成多个答案时,常常陷入“表面多样、内核重复”的困境——看似不同的表述背后,推理路径却高度相似。上海科技大学与北京通用人工智能研究院联合提出“探索性采样”(Exploratory Sampling,ESamp)技术,通过在模型内部植入“新鲜感探测器”,让AI主动探索未曾涉足的思维路径,在数学推理、科学问答、编程挑战和创意写作等任务中显著提升答案多样性。
传统测试时扩展策略通过生成多个候选答案并筛选最优解,但若候选答案仅停留在文字层面的差异,实际解题思路趋同,则无法突破能力瓶颈。例如,在数学竞赛中,若64个答案均基于同一变量设定和解题框架,即使措辞不同,系统性错误仍会导致所有尝试失效。现有解决方案中,结构化搜索方法(如思维树)计算成本高昂,启发式采样(如调高温度参数)则仅能引入表面随机性,无法触及语义层面的多样性。
研究团队从人类学习行为中汲取灵感:人在陌生领域更易犯错,而熟悉场景则得心应手。ESamp通过监测模型深层神经网络的“语义表征”——即模型处理文本后形成的抽象思维坐标——来量化当前思路的新鲜度。若两个答案的深层表征在语义空间中距离相近,则表明推理路径高度重叠;反之则代表真正不同的解题方向。
核心创新在于引入轻量级“潜在蒸馏器”(Latent Distiller),这是一个仅含两层神经网络的小型模块,消耗显存不足200MB。蒸馏器通过预测模型深层输出与实际结果的误差,实时追踪AI的思维轨迹:当AI进入熟悉领域时,预测误差小,探索信号弱;当踏入陌生区域时,误差急剧增大,触发探索机制。这一设计借鉴了强化学习中的随机网络蒸馏算法,将地图探索逻辑迁移至语言生成场景。
数学上,ESamp将语言生成建模为马尔可夫决策过程,通过优化带KL散度约束的目标函数,将新鲜感信号转化为词语选择的实际权重。具体公式为:新评分 = (1+β) × 原始评分 - β × 蒸馏器评分,其中β为控制探索力度的超参数。该公式包含两层机制:一是根据整体误差大小调节探索强度,误差越大则推动AI更强烈地转向未知领域;二是通过误差向量与候选词向量的余弦相似度,精准提升能引导至新语义区域的词汇概率。
在批量生成场景中,ESamp展现出独特的协同效应。当AI同时生成16个或64个答案时,所有序列共享同一个蒸馏器,形成隐式协调机制:首个序列探索某片语义区域后,蒸馏器迅速“标记”该区域为熟悉地带,后续序列因探索奖励减弱而自动转向其他方向。这种“先到先得”的资源分配策略,无需序列间显式通信,仅通过参数更新即实现高效分工。实验数据显示,在创意写作任务中,ESamp生成的答案平均两两余弦相似度持续下降,而传统方法在初期下降后迅速停滞。
针对计算效率的担忧,研究团队设计异步流水线架构,充分利用模型生成过程中的空闲时段:蒸馏器推理与中间层计算并行执行,训练则安排在CPU处理采样任务的间隙完成。在标准Llama-3-8B模型上,蒸馏器计算耗时不足0.5毫秒,远低于中间层15-20毫秒的运算时间。开源版本通过Triton语言优化GPU内核、筛选候选词干预范围等手段,使ESamp在RTX 4090上的吞吐量仅比基准模型慢1.2%,多用户高并发场景下开销也控制在4.25%以内。
实证研究覆盖四大领域:数学竞赛(AIME 2024/2025)、科学问答(GPQA-Diamond)、编程挑战(LiveCodeBench v5)和创意写作(BookCorpus)。在AIME数学竞赛中,GPT-OSS-20B模型使用ESamp仅需8个样本即可达到其他方法64个样本的准确率,效率提升8倍;在创意写作任务中,ESamp同时实现最高Vendi多样性分数、最低语义相似度和最低困惑度,打破“多样性与连贯性不可兼得”的局限。消融实验表明,语义空间操作、公式设计及噪声结构化等关键组件均对性能提升至关重要。
以一道涉及徒步距离与咖啡馆停留时间的数学题为例,ESamp生成的16个答案包含代数消元法、二次方程建模、试错策略、单位转换及自我纠错过程等多种解法,而传统方法生成的答案几乎全部遵循同一解题流程。单盲评测中,由Gemini 3 Flash Preview担任裁判的2000组对比实验显示,ESamp在多样性和质量排名上均显著优于基线方法,验证了其生成内容的意义性与自然度。
该技术无需改造训练流程或重新训练模型,仅需在推理阶段插入解码策略即可适配各类大型语言模型。对于用户而言,这意味着在解数学题、写代码或进行科学分析时,相同次数的尝试将获得更高质量的候选集,正确答案的发现概率大幅提升,而无需承担额外的时间或计算成本。研究团队已公开论文全文及开源代码,为构建更高效的AI测试时扩展系统提供实用工具。










