滚动资讯

当前位置：首页 > 资讯 > 手机快报 > 正文内容

上海AI实验室创新突破：视频驱动让AI“看懂”网页交互逻辑

时间：2025-10-22 06:25:54 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当用户点击网页按钮时页面跳转、输入表单后获得反馈、鼠标悬停显示隐藏内容——这些日常上网时习以为常的交互，却让当前最先进的AI模型陷入困境。上海AI实验室联合浙江大学、中国科学技术大学深圳分校等机构的研究团队，通过一项突破性研究揭示了AI在理解动态网页方面的根本局限，相关成果发表于arXiv平台（论文编号：2509.24709）。

传统AI训练方式如同让画家仅凭一张照片临摹整幅画作。研究者通常向模型展示网页静态截图，要求其生成对应代码，却忽略了点击、滚动等操作引发的动态变化。研究团队形象地指出："这就像通过房屋照片设计建筑图纸，却不知道门如何开关、电路如何连接。"为此，他们开创性地提出让AI观看完整用户操作视频，通过观察交互过程理解网页运作逻辑。

基于这一理念，团队构建了名为IWR-Bench的评测体系。该基准包含113个真实网站任务，覆盖电商、教育、游戏等五大领域，按交互复杂度分为四级：从简单的页面滚动（L1）到完整的在线游戏开发（L4），按视觉复杂度分为极简布局（V1）到数据仪表盘（V4）。每个任务配备操作视频、静态资源及详细注释，为防止模型"作弊"，所有资源文件均重命名为随机编号。

研究团队对28个主流AI模型展开全面测试，结果暴露出显著短板。表现最优的GPT-5仅获36.35分（满分100），其视觉还原度达64.25分，但功能性评分骤降至24.39分。这意味着模型能生成外观相似的网页，却无法实现按钮点击、表单提交等基础交互。开源模型表现更弱，多数得分低于20分，显示商业模型与开源方案存在代际差距。

测试揭示五大核心挑战：时间序列理解不足导致操作时序混乱；状态管理缺陷造成多步骤流程中断；动态资源匹配错误引发显示异常；代码生成缺陷导致功能缺失；长上下文处理能力有限造成信息丢失。例如在订票流程测试中，模型能显示页面但无法正确传递表单数据；在游戏测试中，能渲染界面但无法实现计分逻辑。

研究团队开发的智能评测系统突破传统方法局限。该系统通过程序化交互测试验证功能完整性，模拟用户点击、输入等操作并检查预期反应；采用多层次视觉分析评估美观性，结合光学字符识别与深度学习特征提取；引入大型语言模型进行语义评估，从用户体验角度综合打分。这种立体化评测首次实现了功能与美观的双重量化。

技术分析显示，视频理解专用模型（如VideoLLaMA3-7B）得分仅13.67分，反而低于通用多模态模型，证明单纯强化视频处理能力不足以解决交互理解问题。配备"思维链"功能的模型版本表现略优，但提升幅度有限，表明当前推理增强技术尚未触及问题本质。

这项研究为AI开发范式转型提供关键依据。研究指出，未来需构建专门处理时序交互的新型架构，整合分层时序建模与多模态对齐技术；开发渐进式训练方法，从简单交互逐步过渡到复杂系统；建立更大规模、更高质量的训练数据集，扩展任务覆盖范围。自动化评测框架的建立，则为行业提供了标准化评估工具。

在应用层面，该技术成熟后将彻底改变软件开发模式。普通用户可通过操作演示直接生成网页应用，降低技术门槛；教育领域可借助动态学习过程提升教学效果；企业开发中，AI生成的初始代码框架可加速原型设计。这种变革类似于从专业摄影设备到智能手机的影像技术普及，将数字创造力赋予更广泛人群。

研究团队强调，当前技术距离实用化仍有较大差距，但已证明基于视频的交互理解是可行方向。通过建立三维分类评测体系、开发智能评估系统、识别关键技术瓶颈，这项研究为后续突破奠定了方法论基础。完整技术细节可查阅arXiv:2509.24709论文。

更多>同类资讯

2025数智科技生态大会启幕华为全生态产品矩阵引领智慧新体验

除核心旗舰新机型系列外，我们还能体验到HUAWEI WATCH Ultimate 2智能手表带来的水下、地面、卫星全场景通信覆盖；HUAWEIMateBook Fold在大屏沉浸体验与轻薄便携之间的无缝切…

12-08

吉利博越L成家用SUV新宠，月销超3万，空间动力性价比全在线

12-08

别克至境世家：以健康空间安全，开启新能源MPV价值竞争新篇章

12-08

哈弗H6L：10万级大五座SUV新选择，省油智能安全全拿捏

12-08

三星Galaxy Z TriFold官宣12月9日登场，双屏铰链升级亮点多

在折叠屏市场上，以高速度发展的品牌越来越多，尤其是华为、三星等品牌，而且自研铰链、屏幕材料等，进一步突破折叠技术。屏幕亮度，外屏为2600尼特，折叠屏为1600尼特，均采用Vision Booster视觉增强…

12-08

vivo S50系列官宣12月15日登场，影像性能续航全升级，亮点抢先看

仅从所预热的内容，全系列拥有两大版本，分别是标准版本、Pro mini版本，无论是外观还是配置，两大版本各有不同。GPU升级到Adreno 840，主频为1.2GHz，独立高速缓存为18MB，各大性能同步提升…

12-08

宝马CE-02：都市通勤新宠，强劲性能与丰富配置的完美融合

12-08

震有科技卫星地面核心网：架起天地桥梁，开启全域无缝通信新篇章

震有科技卫星核心网用一体化架构+灵活协议适配，把5G、IMS、运营支撑和云管理平台有机结合，既能服务多种卫星系统（高轨、低轨、北斗等），也能满足从高速宽带到窄带物联网的多样业务需求，为多系统融合组网提供统一…

12-08

一加Pad Go 2平板细节披露：联发科芯片加持，12.1英寸大屏两种配色登场

12-08

华为余承东揭秘：尊界S800“超级小脑”芯片，多车搭载保障驾驶安全

12-08

英特尔或2028年入局iPhone芯片制造，与台积电共担非Pro系列生产任务

12-08

可折叠iPhone或取消实体SIM卡槽 eSIM技术引领未来通信新趋势

12-08

苹果生态大变样：从“封闭”到开放，是妥协还是新布局？

12-08

华为2025数智大会：全场景新品矩阵，开启智慧生活新范式

在智慧办公场景，手机、电脑、平板的键鼠共享与文件拖拽功能，让撰写报告时可随时调用不同设备的资料，在会议中能快速投屏展示内容，大幅提升协作效率；在生活场景中，华为穿戴设备可联动智能家居，实现“回家模式”下灯光、…

12-08

华为2025数智大会展全场景智慧：打破设备壁垒，开启无缝互联新生活

通过这次的华为展台，我们可以更清晰的看到：当行业还在讨论单一硬件的性能极限时，华为早已将目光投向了更宏大的命题——如何打破设备间的物理壁垒，构建一个无缝流转的智慧生活空间。在全场景专桌，我们看到了HUAWE…

12-08

点击查看更多 +

全站最新

三款旗舰手机价格大跳水，16+512GB配置强劲，流畅使用至2031年成可能

专为极寒环境打造！坦克300极地版12月10日上市，全球限量300台还配硬核选装包

吉利博越L成家用SUV新宠，月销超3万，空间动力性价比全在线

锐胜M8上市：12.98万起售，空间动力舒适配置全拉满

别克至境世家：以健康空间安全，开启新能源MPV价值竞争新篇章

AI赋能增程新境界：银河V900如何重塑MPV出行体验？

热门内容

本栏最新

吉利博越L成家用SUV新宠，月销超3万，空间动力性价比全在线

别克至境世家：以健康空间安全，开启新能源MPV价值竞争新篇章

哈弗H6L：10万级大五座SUV新选择，省油智能安全全拿捏

宝马CE-02：都市通勤新宠，强劲性能与丰富配置的完美融合

华为余承东揭秘：尊界S800“超级小脑”芯片，多车搭载保障驾驶安全

别克至境世家定价43.99万起，高端配置加持能否在市场站稳脚跟？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.