一项由伊利诺伊大学厄巴纳-香槟分校联合斯坦福大学与哥伦比亚大学开展的研究,构建了一套名为TailOR的评测体系,旨在检验当前图像与视频生成模型是否真正掌握物理世界运作规律。该研究以预印本形式发布,论文编号为arXiv:2606.24256。研究团队指出,尽管现有模型能生成逼真的场景,但面对训练数据中未大量出现的物理互动时,其表现往往不尽如人意。
日常生活中的物理互动存在显著的不均衡性。以工具使用为例,锤子钉钉子、剪刀剪纸等场景因频繁出现而构成“高频交互”,成为训练数据中的主流内容。然而,用硬币拧螺丝、用厚书砸核桃等“低频交互”虽物理可行,却因罕见而难以被模型充分学习。研究人员将前者称为“头部场景”,后者归为“长尾场景”,并指出模型在头部场景的优异表现可能仅源于对训练数据的模式记忆,而非真正理解物理规律。
当前主流评测基准几乎全部聚焦于常见场景。例如,OpenAI的Sora-2在MMGR数据集上达到86%的物理准确度,但这类测试无法区分模型是真正理解物体互动还是仅复现统计规律。TailOR通过设计递进式测试,从“常规场景”到“非常规场景”再到“不可能场景”,逐步剥离模型对训练数据的依赖,暴露其真实能力。常规场景测试基础记忆,非常规场景考验属性推理,不可能场景则检验模型对物理约束的识别。
TailOR的测试框架包含双重提示方式:预测式生成要求模型根据操作过程推断结果,描述式生成则直接提供结果描述。前者测试内在物理推理能力,后者测试指令执行精度。例如,在预测式任务中,模型需自行判断“用棉花糖砸核桃”的后果;在描述式任务中,模型则需生成“棉花糖被压扁而核桃完好”的场景。这种设计进一步拆解了模型的能力边界。
数据集构建过程融合了自动化生成与人工审核。研究团队从HICO-DET数据集中提取18种代表性动作,通过GPT-5生成具体任务及工具变体,包括常规工具、非常规替代工具和不可能工具。例如,为“拧松螺丝”任务生成硬币作为非常规工具,干面条作为不可能工具。所有内容经两轮人工审核,确保物理合理性。最终数据集包含80个核心任务,衍生出1600个评测提示,覆盖室内外多种场景。
评估维度涵盖指令遵从度、交互准确度、物理真实感和感知质量。指令遵从度细分为实体完整性、属性准确性和场景合理性;交互准确度包括状态变化、功能对应性和运动合理性;物理真实感采用0-5分制评分;感知质量则评估视觉呈现效果。评测采用人工与自动并行的方式,自动评测使用Gemini-2.5-Pro模型,其结果与人工评测高度一致,验证了评测体系的可靠性。
参与测试的8个模型包括图像生成领域的Z-Image、Qwen-Image、GPT-Image-1和Nano-Banana-2,以及视频生成领域的HunyuanVideo-1.5、Wan-2.2、Sora-2和Veo-3.1。测试结果显示,所有模型从常规到非常规再到不可能场景,性能均呈系统性下滑。例如,Nano-Banana-2在常规场景的指令遵从度达69%,非常规场景降至46%,不可能场景仅42%;Sora-2的物理真实感从常规场景的3.1分跌至不可能场景的2.2分。视频模型的表现下滑更为显著,尤其在不可能场景中常生成违背物理规律的结果。
分析发现,图像模型在常规场景的失败多源于结果错误或属性不准确,如锤子与钉子位置正确但未发生互动;非常规场景则常出现功能对应性错误,如用书砸钉子时书异常弯曲。视频模型的失败模式更为复杂,常规场景中运动轨迹不连贯,非常规场景中功能对应性错误突出,不可能场景则存在严重的跨帧不一致问题,如核桃在无外力作用下突然破裂。
描述式生成本应比预测式生成更易执行,但视频模型在描述式任务中的表现反而更差。研究团队认为,这是由于视频模型对训练数据中的常见模式存在强烈惯性。例如,当模型在第一帧“看到”核桃时,会自动沿“核桃被砸碎”的熟悉路径生成后续帧,即使指令明确要求核桃完好,模型也难以抵抗这种惯性。图像模型在描述式生成中虽有一定提升,但在属性准确性方面仍存在局限。
现有模型的训练方式主要关注视觉逼真度和数据相似性,导致其将常见工具-任务配对作为整体模板记忆,而非理解背后的物理逻辑。例如,模型记住“锤子+钉子”的模板,但无法抽象出“质量”“硬度”“力传导”等底层属性,因此在面对硬书或棉花糖等新工具时无法正确推理。这种模式记忆与物理直觉的缺失,限制了模型作为真正“世界模拟器”的潜力。
对于普通用户而言,当前模型在模拟常见物理场景时表现可靠,但在处理非常规互动或呈现“失败原因”时需谨慎验证结果。研究团队建议,未来训练应引入更强的物理属性归纳偏置,帮助模型学习可复用的物理原语;视频模型需改进长程状态追踪和力传导一致性建模;评测框架也可扩展至多步操作、多物体因果链等复杂场景。完整论文及项目信息可通过arXiv编号2606.24256和tailor-bench.github.io获取。











