ITBear旗下自媒体矩阵:

推特线上辩论催生学术新成果!谢赛宁团队iREPA用3行代码实现突破

   时间:2025-12-17 02:39:03 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

一场发生在社交媒体平台上的学术争论,意外催生出一项重要的计算机视觉研究成果。研究人员谢赛宁近日公开表示,其团队新提出的iREPA方法灵感源于四个多月前与网友的线上辩论,这项成果不仅颠覆了传统认知,更通过极简的代码实现显著提升了模型性能。

争论的起点源于一位网友对自监督学习模型的质疑。该网友指出,当前研究过度依赖ImageNet-1K分类分数作为评价指标,而真正影响稠密任务(如目标检测、语义分割)性能的关键在于patch tokens中的空间局部信息,而非[CLS]token代表的全局分类能力。这一观点立即引发了谢赛宁的反驳,他坚持认为高层语义信息与低层像素特征同样重要,模型性能与ImageNet得分存在强关联。

随着讨论深入,更多研究者加入这场学术交锋。有参与者提出通过对比PEspatial与PEcore两种架构来验证假设,这种将Gram-anchor对齐到早期网络层的设计思路得到了谢赛宁的认可。团队迅速展开实验,使用G/14架构在448分辨率下进行测试,为后续研究奠定了基础。

三个月后,实验结果彻底改变了谢赛宁的立场。新论文通过大规模定量分析覆盖27种视觉编码器(包括DINO系列、SigLIP等)和三种模型规模,得出颠覆性结论:表征生成性能的关键驱动因素并非全局语义信息,而是空间结构特征。具体表现为:线性检测准确率仅20%的编码器,其生成效果反而优于准确率超80%的模型;强行通过CLS token注入全局语义会导致性能下降。

研究团队进一步发现,具有更强空间自相似性的表征(即图像局部区域间的关注模式)能显著提升生成质量。令人惊讶的是,传统空间特征提取方法(如SIFT、HOG)的表现与现代大规模视觉编码器相当,这重新定义了空间信息在计算机视觉中的价值权重。

基于这些发现,研究团队对现有表征对齐框架(REPA)进行关键改进:用卷积层替代标准MLP投影层,并引入空间规范化层。这些修改形成的iREPA方法仅需三行代码即可集成到现有模型中,在REPA、REPA-E、Meanflow等多种训练方案中均实现更快收敛速度。实验数据显示,改进后的方法在稠密任务中的性能提升具有显著优势。

这场始于社交媒体的学术争论,最终演变为推动领域进步的重要突破。论文特别在致谢部分标注了参与讨论的网友ID,这种开放包容的学术态度获得广泛赞誉。有参与者回应称:"被致谢感到受宠若惊,这种即时纠错的讨论模式值得推广。"谢赛宁将此次经历形容为"线上茶水间效应"的实验,强调从分歧到共识的转化过程对科学发现的重要性。目前,相关代码已开源,研究团队期待更多研究者在此基础上继续探索空间信息的潜力边界。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version