用AI生成视频素材已非难事,但要让AI独立完成从剪辑到成片的完整流程,目前仍面临巨大挑战。中国传媒大学联合新加坡国立大学和USEIT AI团队构建的CutVerse测试平台,首次对AI智能体在专业视频编辑软件中的表现进行了系统性评估。结果显示,即便最先进的AI模型,在复杂后期任务中的成功率也仅约36%,这一数据暴露出AI在专业创作领域的显著短板。
研究团队将AI视频创作分为两个阶段:前段通过Keling、即梦等工具生成素材,后段则依赖AI智能体在Premiere Pro等专业软件中完成剪辑、调色、特效叠加等操作。CutVerse平台专门设计用于测试后段能力,其核心在于模拟真实创作环境——AI需像人类一样通过屏幕视觉反馈操作鼠标键盘,而非调用后台接口。这种设定确保了测试结果能真实反映AI在专业场景中的实用性。
为构建测试体系,研究团队邀请10位资深视频创作者设计了186个任务,覆盖7款专业软件的操作流程。这些任务被细分为九大类别,从基础软件启动到高级遮罩追踪,操作复杂度呈阶梯式分布。例如,简单任务仅需打开软件或导出文件,而极限难度任务则要求AI在时间轴上精确到像素级操作,或同时协调多个软件的数据交互。每个任务被拆解为多个里程碑,AI需逐一通过视觉验证才能进入下一阶段。
测试环境采用标准化Windows虚拟机,确保每次评估的初始条件完全一致。AI的操作记录通过屏幕截图和操作日志双重验证,评估系统结合GPT-5.4和Claude-4.6-Opus两大语言模型,对每个里程碑进行交叉判断。人工对照实验显示,该自动评判系统与专业人员判断的吻合率高达98.3%,为数据可靠性提供了有力支撑。
参与测试的五款AI模型涵盖商业闭源和开源领域,包括Claude-Opus-4.6、Gemini-3-flash等顶尖选手。在程序性操作(如软件启动、素材导入)中,所有模型均表现出色,成功率普遍超过90%。但当涉及核心编辑任务时,性能出现断崖式下跌:遮罩追踪任务中,表现最佳的Gemini成功率仅38.1%,而开源模型UI-TARS-1.5-7B的准确率不足10%。这种反差凸显出AI在复杂操作序列中的脆弱性——即使单个步骤正确,多步串联时仍可能因误差累积导致全盘失败。
失败案例分析揭示了四大技术瓶颈:其一,专业图标识别困难,AI常混淆形状相似的工具按钮;其二,空间定位精度不足,时间轴操作偏差可达半秒以上;其三,缺乏全局工作区感知,易因视野局限导致重复操作;其四,对延迟视觉反馈的处理能力薄弱,容易陷入无效重复循环。这些问题在After Effects等复杂软件中尤为突出,其平均任务步数虽仅14.81步,但每步操作需协调多个快捷键和鼠标动作,对AI的协调性要求极高。
不同软件的表现差异进一步印证了操作复杂度的影响。可灵等AI生成工具因界面规整、操作直接,任务成功率普遍超过80%;而Premiere Pro、After Effects等专业软件的成功率则徘徊在40%-60%之间。After Effects成为AI的"终极考场",其任务涉及多层级结构操作和精确像素定位,即便是顶级模型Claude,在该类任务中的成功率也仅57.7%。
研究团队提出的"氛围剪辑"概念描绘了AI视频创作的理想图景:用户只需提出创意需求,AI即可自动完成素材生成与后期制作,最终交付可直接发布的成品。然而CutVerse的测试数据表明,这一愿景的实现仍需突破多重技术障碍。当前AI在长序列操作中的可靠性、复杂界面的识别精度,以及跨模态协调能等方面,均与专业要求存在显著差距。
该研究的完整数据集和测试代码已在GitHub开源,预印本论文可通过arXiv:2605.19484获取。这项工作不仅为AI智能体研究提供了标准化评估框架,更通过精细化失败分析,为后续技术优化指明了具体方向。对于视频创作者而言,短期内AI尚无法替代人类在精细操作和专业判断中的核心作用;但对于技术研发者,CutVerse平台已成为检验AI专业领域适应能力的重要基准。











