旧金山四人团队另辟蹊径：1100万小时视频训练出通用计算机操作新模型-业界动态-ITBear比尔科技

旧金山一家名为Standard Intelligence的初创公司，近日推出了一款名为FDM-1（前向动力学模型）的计算机行为模型，宣称其为“首个完全通用的计算机行为模型”。该模型在包含1100万小时屏幕录制视频的数据集上完成训练，能够以每秒30帧的速率直接处理视频流，并在CAD建模、网站安全测试以及真实世界的自动驾驶场景中展现出令人瞩目的泛化能力。

当前主流的计算机使用代理技术路线主要依赖视觉语言模型（VLM）叠加工具调用能力。例如，Anthropic在2024年10月为Claude添加了Computer Use功能，通过截屏、界面元素识别和模拟点击来操作计算机。到2026年2月，Claude Sonnet 4.6在OSWorld基准测试中取得了72.5%的得分。OpenAI在2025年1月发布的Operator则基于GPT-4o的视觉能力与强化学习实现网页操控。Google DeepMind也布局了Project Mariner和Gemini 2.5 Computer Use等类似项目。这些巨头的共同特点是通过截屏分析理解界面，本质上仍是“看图说话”的思路。

Standard Intelligence认为，这种技术路线存在局限性。他们提出，真正通用的计算机操作智能体需要直接从大规模视频中学习人类行为模式，而非依赖截屏分类与推理。正如GPT-3需要互联网规模的文本语料库才能涌现语言能力，通用的计算机行为模型同样需要互联网规模的视频数据。目前最大的公开计算机操作数据集不足20小时30 FPS视频，而互联网上积累了数百万小时的剪辑制作、编程直播、游戏实况等操作录像，这些数据尚未被系统性利用。FDM-1正是瞄准这一缺口展开研发。

该模型的技术路线与2022年OpenAI发布的VPT（视频预训练）方法有相似之处。VPT通过少量人工标注的Minecraft游戏视频训练逆向动力学模型（IDM），再利用IDM为约7万小时的YouTube游戏视频自动标注操作标签，最终实现复杂任务的行为克隆。但VPT仅适用于特定环境，且上下文窗口极短（约六秒），难以处理需要长时间连贯操作的计算机任务。FDM-1则试图在数据规模和上下文长度两个维度上实现突破。

在数据规模方面，Standard Intelligence首先在4万小时标注员录屏数据上训练IDM，随后用该模型为1100万小时互联网视频自动标注操作标签。IDM通过观察屏幕前后帧变化反推操作动作，例如屏幕上出现字母“K”可能对应按下K键，光标移动则对应鼠标位移。尽管存在噪声和歧义，但这种方法在技术上可行。团队采用掩码扩散架构设计IDM，使其能够同时参照所有帧推断动作，先标注高置信度简单动作，再集中处理模糊难例。据称，这种方法比纯因果模型数据效率更高，且在鼠标移动和界面操作等任务上的表现甚至优于人工标注数据。

在上下文长度方面，突破来自团队自研的视频编码器。现有VLM处理屏幕录制视频的方式消耗大量token，例如一分钟30 FPS视频约需100万个token，导致主流模型在200k token上下文窗口中仅能处理几秒钟视频。Standard Intelligence的视频编码器声称能将近两小时（约36000帧）视频压缩进相同token预算，比此前最优方案高效50倍，比OpenAI编码器高效100倍。该编码器通过在屏幕录制数据上训练掩码压缩目标实现这一性能，并在文本转录基准测试中展现出比标准ViT快约100倍的收敛速度。

基于大规模标注数据和高效编码器，FDM-1采用标准自回归架构训练。该模型接收此前视频帧和动作序列，预测下一个动作token，输出空间包含键盘按键和鼠标移动增量。为处理鼠标位移的庞大状态空间，团队将其分解为X和Y分量，经屏幕宽高归一化后使用指数分箱映射到49个尺寸递增的箱中。小而频繁的移动分入细粒度箱，大而稀少的移动分入粗粒度箱，同时每个鼠标移动token附带预测下一个点击位置，以生成更精确轨迹。

与VLM路线不同，FDM-1完全不使用链式思维推理、字节对编码或工具调用，直接在视频和动作token上运作。这种设计使推理延迟降低，并使其能够处理滚动、3D建模、游戏操控等连续性任务。为评估模型性能，团队构建了一套可运行8万台分叉虚拟机的系统，每小时能完成超过100万次rollout。每台虚拟机配备最小化Ubuntu桌面环境、1个vCPU和8GB内存，一块H100 GPU可同时控制42台。分叉机制允许对操作系统状态做完整内存快照并复制到新虚拟机，从而在相同起始状态下并行运行数千次评估。通过优化GPU与虚拟机布局、使用低延迟VNC配置和自定义Rust输入绑定，团队将屏幕截取到动作执行的往返延迟压缩至11毫秒。

初步评测结果显示，IDM标注数据在鼠标操作、目标点击、符号记忆和UI操控等方面的表现已超过人工标注数据，但在打字和语言理解任务上进步较慢。团队认为这是IDM标注噪声所致，未来计划混合使用两种数据。在自动驾驶微调实验中，FDM-1在不到1小时驾驶数据上微调后，即能用方向键控制汽车在旧金山绕街区转弯，起始准确率为50%（在“无操作/左转/右转”三选一中），明显高于仅有视频编码器而无互联网视频预训练的基线模型。

Standard Intelligence成立于2024年3月，定位为“对齐的AGI实验室”。研究团队核心成员包括Neel Redkar、Yudhister Kumar、Devansh Pandey和Galen Mead。Neel Redkar来自UCLA，高中时期曾凭借碳捕获金属有机框架神经网络研究获得ISEF大奖，并在Notion AI团队实习过。Yudhister Kumar参与过MATS 5.0项目，研究过预言机在合作AI中的应用。在FDM-1之前，团队已开展过两个引人关注的项目：2024年中在旧金山市中心建造的30 PB存储集群，用于存放9000万小时视频数据；2024年11月开源的hertz-dev，一个85亿参数的全双工音频基础模型，在单张RTX 4090上实现了约120毫秒的实际对话延迟。这两个项目分别对应了FDM-1所需的大规模数据基础设施和跨模态学习能力。

FDM-1的技术路径与当前行业主流形成鲜明对比。Anthropic、OpenAI和Google的计算机操控代理本质上是“大脑外接手臂”，利用现有语言/视觉推理模型截图、识别UI元素并生成点击指令。这种方法的优点是能利用通用推理能力，缺点是操作频率低，难以处理高帧率连续控制任务，且受限于截屏分辨率下的UI理解。FDM-1则更接近端到端行为克隆路线，直接从视频到动作，不经过语言中介，天然擅长连续控制任务，但可能缺乏VLM方案的抽象推理和自然语言理解能力。

目前，FDM-1尚未成为可用产品。它不具备指令跟随能力，所有演示均为模型自主探索或执行预设行为，缺乏自然语言驱动展示。团队也未在公开标准化基准（如OSWorld或CUB）上报告结果，所有评测基于内部任务套件，与主流方案缺乏直接可比性。不使用语言模型能力迁移意味着FDM-1可能在CAD建模、游戏操控、连续滚动浏览等任务上有独特优势，但产品化落地时需解决指令理解、任务规划等问题。未来，FDM-1代表的路线与VLM代理路线可能会趋于融合。一个能在30 FPS下连续操控3D建模软件的模型，若加上语言条件化和高级规划模块，或能兼得两种路线优点。在计算机行为建模领域，数据规模和上下文长度的重要性正被重新认识，而Standard Intelligence可能是首个将这两个要素推向极致的团队。