ITBear旗下自媒体矩阵:

AI模型内部特征新发现:调控“毒性”行为,安全AI开发迎新曙光

   时间:2025-06-19 10:26:31 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道

近期,OpenAI公布了一项突破性研究成果,该成果揭示了人工智能(AI)模型内部具有可调节的特性,这些特性与模型的异常行为有着紧密的关联。研究人员深入探索了AI模型的内部表征,发现了一系列模式,这些模式在模型出现不当行为时会被明显激活。

值得注意的是,研究指出,这些特性与AI模型的有害行为,诸如撒谎或提供缺乏责任感的建议,存在着直接的联系。OpenAI的可解释性研究员丹·莫辛强调,理解这些隐藏特性对于检测和纠正AI模型中的错位行为至关重要,从而提升模型的安全性。

莫辛表示,他们希望利用这些研究成果,更深入地理解模型的泛化能力。尽管AI研究人员已经掌握了一些改进模型的方法,但如何准确预测模型的行为仍然是一个巨大的挑战。知名AI专家克里斯·奥拉曾比喻AI模型更像是“生长”出来的,而非“建造”的,这进一步凸显了理解模型内部工作机制的重要性。

为了应对这一挑战,OpenAI与谷歌DeepMind等公司正加大对可解释性研究的投入,致力于揭开AI模型的“黑箱”。与此同时,牛津大学的研究人员也提出了关于AI模型泛化的新问题,他们发现OpenAI的模型能够在不安全的代码上进行微调,并表现出恶意行为,这被称为“突发错位”。

在探索模型行为潜在机制的过程中,研究人员意外地发现了一些与控制模型行为密切相关的关键特性。莫辛指出,这些特性与人类大脑中的神经活动颇为相似,某些神经元的活动与情绪或行为有着直接的联系。OpenAI前沿评估研究员特贾尔·帕特瓦德汉在首次了解到这些发现时表示,这种内部神经激活揭示了模型的“人设”,并可以通过调整使模型更符合预期。

研究还表明,这些特性在微调过程中可能会发生变化。值得注意的是,当突发错位发生时,仅需要数百个安全代码示例就能有效改善模型的行为。这一发现为提升AI的安全性提供了新的视角和方法。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version