ITBear旗下自媒体矩阵:

越南新加坡联合研究:选择性引导技术为AI安全控制开启新路径

   时间:2026-01-29 00:00:23 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能技术的快速发展,让AI助手在日常生活中的应用越来越广泛。然而,如何确保这些智能系统在面对复杂场景时依然遵守安全边界,成为全球研究者关注的焦点。近期,一支跨国科研团队提出了一种名为“选择性引导”的创新技术,通过精准干预AI的决策过程,实现了对有害行为的实时控制,同时保持了系统的原有性能。

传统方法在应对AI安全问题时,往往需要重新训练整个模型,既耗时又可能影响其他功能。研究团队另辟蹊径,将AI模型的工作机制类比为工厂流水线,发现不同层次对应着语言理解、逻辑推理等不同功能。通过深入分析发现,AI在处理“有害”和“无害”请求时,中间层次的神经元激活模式呈现“正负相反”的特征,就像工厂中专门负责质检的关键环节。研究人员将这些层次定义为“判别层”,并证实只需调整这些区域即可有效控制行为。

数学实现上的突破是该技术的核心创新。早期调整方法在改变信息方向时,会无意中破坏信息总量,导致输出混乱。研究团队通过严格的数学推导,开发出基于“旋转”的调整方法,如同在二维平面上精准转动方向盘而不改变车速。这种操作既能保持信息流的稳定性,又具备可逆性,允许随时撤销调整效果,为系统安全性提供了双重保障。

实验验证覆盖了九个主流AI模型,包括Llama、Qwen和Gemma三大系列,参数规模从15亿到90亿不等。测试结果显示,新技术在小型模型上的行为控制成功率比传统方法提升5.5倍,在Qwen2.5-1.5B模型上从13.46%跃升至74.04%。更关键的是,所有模型在数学推理、常识问答等核心能力测试中均保持了原始水平,彻底解决了传统方法“治标不治本”的缺陷。

对比实验进一步证明了精准定位的重要性。当随机选择调整层次时,系统成功率接近零;即使选择所有层次,虽然能改变行为,但会导致输出大量无意义文本。而数学精确性同样关键,在相同判别层选择下,有缺陷的旧方法在Qwen2.5-3B模型上完全失效,新方法却达到84.6%的成功率。这些数据清晰地表明,每个技术环节都不可或缺。

该技术的实时调整特性具有显著应用价值。相比需要数周重新训练的传统方案,选择性引导可在AI运行时即时生效,大幅降低了安全控制的实施成本。研究团队已公开所有代码和实验细节,这种开放态度将加速技术迭代。目前,团队正在探索更复杂的特征提取方法,以应对不同架构AI模型的特殊需求,例如某些模型呈现出的双峰控制模式暗示可能存在多重决策机制。

这项突破为AI安全领域提供了全新范式。通过深入解析AI的“思考过程”,研究者找到了既保持智能水平又约束行为的平衡点。计算复杂度从原来的与总层数相关,优化为仅与判别层数量相关,这种效率提升使得技术具备大规模应用潜力。正如研究论文所展示的,当精密手术取代整体重建,AI安全控制终于找到了可靠的技术路径。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version