ITBear旗下自媒体矩阵:

上海AI实验室创新突破:视频驱动让AI“看懂”网页交互逻辑

   时间:2025-10-22 06:25:54 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当用户点击网页按钮时页面跳转、输入表单后获得反馈、鼠标悬停显示隐藏内容——这些日常上网时习以为常的交互,却让当前最先进的AI模型陷入困境。上海AI实验室联合浙江大学、中国科学技术大学深圳分校等机构的研究团队,通过一项突破性研究揭示了AI在理解动态网页方面的根本局限,相关成果发表于arXiv平台(论文编号:2509.24709)。

传统AI训练方式如同让画家仅凭一张照片临摹整幅画作。研究者通常向模型展示网页静态截图,要求其生成对应代码,却忽略了点击、滚动等操作引发的动态变化。研究团队形象地指出:"这就像通过房屋照片设计建筑图纸,却不知道门如何开关、电路如何连接。"为此,他们开创性地提出让AI观看完整用户操作视频,通过观察交互过程理解网页运作逻辑。

基于这一理念,团队构建了名为IWR-Bench的评测体系。该基准包含113个真实网站任务,覆盖电商、教育、游戏等五大领域,按交互复杂度分为四级:从简单的页面滚动(L1)到完整的在线游戏开发(L4),按视觉复杂度分为极简布局(V1)到数据仪表盘(V4)。每个任务配备操作视频、静态资源及详细注释,为防止模型"作弊",所有资源文件均重命名为随机编号。

研究团队对28个主流AI模型展开全面测试,结果暴露出显著短板。表现最优的GPT-5仅获36.35分(满分100),其视觉还原度达64.25分,但功能性评分骤降至24.39分。这意味着模型能生成外观相似的网页,却无法实现按钮点击、表单提交等基础交互。开源模型表现更弱,多数得分低于20分,显示商业模型与开源方案存在代际差距。

测试揭示五大核心挑战:时间序列理解不足导致操作时序混乱;状态管理缺陷造成多步骤流程中断;动态资源匹配错误引发显示异常;代码生成缺陷导致功能缺失;长上下文处理能力有限造成信息丢失。例如在订票流程测试中,模型能显示页面但无法正确传递表单数据;在游戏测试中,能渲染界面但无法实现计分逻辑。

研究团队开发的智能评测系统突破传统方法局限。该系统通过程序化交互测试验证功能完整性,模拟用户点击、输入等操作并检查预期反应;采用多层次视觉分析评估美观性,结合光学字符识别与深度学习特征提取;引入大型语言模型进行语义评估,从用户体验角度综合打分。这种立体化评测首次实现了功能与美观的双重量化。

技术分析显示,视频理解专用模型(如VideoLLaMA3-7B)得分仅13.67分,反而低于通用多模态模型,证明单纯强化视频处理能力不足以解决交互理解问题。配备"思维链"功能的模型版本表现略优,但提升幅度有限,表明当前推理增强技术尚未触及问题本质。

这项研究为AI开发范式转型提供关键依据。研究指出,未来需构建专门处理时序交互的新型架构,整合分层时序建模与多模态对齐技术;开发渐进式训练方法,从简单交互逐步过渡到复杂系统;建立更大规模、更高质量的训练数据集,扩展任务覆盖范围。自动化评测框架的建立,则为行业提供了标准化评估工具。

在应用层面,该技术成熟后将彻底改变软件开发模式。普通用户可通过操作演示直接生成网页应用,降低技术门槛;教育领域可借助动态学习过程提升教学效果;企业开发中,AI生成的初始代码框架可加速原型设计。这种变革类似于从专业摄影设备到智能手机的影像技术普及,将数字创造力赋予更广泛人群。

研究团队强调,当前技术距离实用化仍有较大差距,但已证明基于视频的交互理解是可行方向。通过建立三维分类评测体系、开发智能评估系统、识别关键技术瓶颈,这项研究为后续突破奠定了方法论基础。完整技术细节可查阅arXiv:2509.24709论文。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version