在人工智能技术迅猛发展的当下,如何确保大语言模型输出内容符合人类价值观,已成为学界与产业界共同关注的核心议题。传统微调方法依赖海量数据且存在效率低下、引入新风险等问题,而近期对模型内部激活值的直接编辑技术,为推理时对齐提供了新思路。然而,现有技术多聚焦于句子级编辑,存在方向偏差与编辑强度僵化两大缺陷。
针对这一技术瓶颈,某高校研究团队提出名为Token-Aware Editing(TAE)的创新方法,通过精细化token级干预实现更精准的模型对齐。该方法突破传统技术框架,在无需额外训练的情况下,可直接应用于对话系统、内容审核及偏见缓解等场景。实验数据显示,TAE在TruthfulQA真实性评估中,使LLaMA-3-8B模型的True*Info得分提升至87.8%,较此前最优方法提升14.6个百分点,较原始基线提升25.8个百分点。
研究团队指出,传统句子级编辑技术存在两大根本性问题。其一为方向偏差,仅依赖最后一个token的激活值代表全句语义,导致编辑方向准确性不足;其二为编辑强度僵化,对所有token采用统一干预力度,无法精准修正错误token。TAE方法通过构建token关系图,利用互信息量化token间关联性,形成多层次信息聚合网络,从而生成更具代表性的激活表征。
该方法包含两大核心模块:Mutual Information-guided Graph Aggregation(MIG)与Misalignment-aware Adaptive Intervention(MAI)。MIG模块通过构建token关系图,融合全句语义信息生成增强激活表征,训练探测头精准识别对齐干预方向。MAI模块则创新性地引入双路错位评估机制,从表示错位与预测不确定性两个维度量化token风险,动态调整干预强度,实现高风险token强干预、低风险token弱干预的差异化处理。
在毒性内容过滤实验中,TAE使RealToxicPrompt数据集的毒性概率从基线0.41骤降至0.05,降幅达87.8%,显著优于DESTEIN等专用去毒方法。在公平性评估方面,StereoSet数据集的刻板印象分数从64.8%降至50.3%,接近理想无偏见状态。值得关注的是,该方法在不同规模模型(如Llama2-7B/13B、Alpaca-7B、Mistral-7B)中均表现出稳定增益,验证了其跨模型适用性。
该研究成果已发表于国际顶级会议,其核心优势在于实现从句子级到token级的精细化干预。相较于传统方法需调整全句激活值,TAE通过token级自适应编辑,在保证输出流畅性的同时,显著提升内容真实性、降低有害性、缓解模型偏见。研究团队透露,后续将探索TAE与监督微调(SFT)、强化学习人类反馈(RLHF)等训练方法的协同应用,推动大模型安全技术向多维度、高效率方向发展。
完整技术细节可参考论文:https://openreview.net/pdf?id=43nuT3mODk