上海人工智能实验室联合浙江大学等科研机构,近日发布了全球首个针对大语言模型视频转交互网页能力的评测基准IWR-Bench。该基准聚焦多模态大语言模型(LVLM)在动态网页重建场景下的技术突破,填补了AI前端开发领域动态交互能力评估的空白,为行业提供了全新的技术参照体系。
与传统图像转代码任务不同,IWR-Bench要求模型通过分析用户操作全流程视频,结合匿名化处理的静态资源文件,完成从简单页面导航到复杂游戏逻辑(如2048游戏、机票预订系统)的动态交互重建。评测覆盖28个主流模型,结果显示最先进的GPT-5综合得分仅36.35分,其中交互功能正确性(IFS)得分24.39%,视觉还原度(VFS)得分64.25%,暴露出模型在事件驱动逻辑实现上的显著短板。
技术评测体系设计突破传统框架,采用自动化代理评估交互功能正确性,要求模型仅通过视觉匹配关联匿名化资源文件,杜绝语义推理的干扰。这种设计更贴近真实开发场景,迫使模型必须理解操作视频中的因果关系链和状态变化轨迹,才能生成符合预期的代码逻辑。测试数据显示,超过75%的模型生成网页存在交互缺陷,包括事件响应错误、状态管理混乱和业务逻辑缺失等问题。
研究团队发现,具备"思考"机制的模型版本在特定任务中表现略有提升,但整体性能仍受限于基础模型能力。更值得注意的是,专为视频理解优化的模型在该任务中表现逊于通用多模态模型,揭示出视频转网页任务需要超越单纯内容理解的特殊能力——即将动态行为抽象为程序逻辑的转化能力。
技术挑战呈现多维度特征:时序理解要求模型从连续视频帧中提取关键交互事件;逻辑抽象需要将观察到的行为模式转化为编程概念;资源匹配需在匿名化文件中精准定位对应资源;代码生成则要确保HTML/CSS/Javascript的结构合理性与逻辑正确性。这些挑战共同构成了动态网页重建的技术壁垒。
该基准的推出具有双重价值:在科研层面,为多模态模型的动态理解能力提供了量化评估工具,精准定位技术薄弱环节;在应用层面,视频转网页技术的成熟将显著降低前端开发门槛,使非技术人员通过操作演示即可生成功能原型。但研究同时指出,实际开发中的性能优化、兼容性处理、安全防护等复杂需求,仍难以通过视频演示完全覆盖。
行业观察认为,IWR-Bench标志着AI代码生成技术从静态描述向动态演示的范式转变。与传统依赖文本描述的编码助手相比,这种"所见即所得"的开发模式可能催生新一代原型工具,使产品经理通过录制操作视频即可生成交互原型。但当前模型在复杂动态交互理解上仍处于初级阶段,视觉还原与逻辑实现的差距反映出AI在行为理解与程序转化间的技术鸿沟。
随着评测基准的推广应用,预计将引发更多研究关注动态行为理解、时序推理与代码生成的融合技术。这种技术演进方向不仅可能重塑AI多模态模型的应用场景,更将为智能开发工具的创新提供关键技术支撑,推动人机协作开发模式进入新阶段。