科技媒体近日披露,苹果公司正通过一系列前沿研究持续深耕空间计算领域,并为其Vision Pro头显生态注入新动能。尽管此前有传闻称苹果暂停了新一代Vision Pro的研发,转而聚焦Siri与AI智能眼镜项目,但最新公开的三项研究成果表明,这家科技巨头仍在多维度推进空间计算技术的突破。
在机器学习领域,苹果研究人员提出了名为SFI-Bench的测试框架,旨在评估多模态大模型对空间功能的理解能力。该框架包含134段室内场景视频扫描数据,并设计了1555道专家标注问题。与传统仅测试"物体是什么、在哪里"的评估方式不同,SFI-Bench要求模型完成更复杂的任务:例如从柜子中找出特定品牌数量最多的瓶子组,理解如何取消洗衣机当前程序,或判断电视遥控器的具体用途。测试结果显示,Google Gemini 3.1 Pro在综合评分中领先,OpenAI GPT-5.4-High紧随其后,但所有模型在"带条件的全局计数"任务中表现欠佳,空间记忆与功能知识整合能力仍有待提升。
另一项研究聚焦于美国手语(ASL)的自动化标注技术。通过构建近500条人工英文字词到术语的标注库,并扩展至超过300小时的ASL STEM Wiki数据和7.5小时的FLEURS-ASL数据集,苹果开发的手指拼写模型在FSBoard测试中达到6.7%的字符错误率(CER),在ASL Citizen数据集上实现74%的top-1准确率。这项技术有望显著降低手语视频标注的人力成本,为听障群体创造更友好的数字交互环境。
在3D建模领域,苹果提出的HeadsUp方法引发关注。该技术利用层级建模(LLM)技术,通过多角度图像采集重建高质量3D头部模型。测试使用的内部数据集包含超1万名受试者的面部数据,规模较现有同类数据集扩大一个数量级。这项突破或与Vision Pro的Persona虚拟形象系统及visionOS的人脸捕捉技术密切相关,可能为用户带来更自然的表情渲染体验。
苹果全球营销高级副总裁格雷格·乔斯维亚克曾公开表示,Vision Pro代表着数字与物理世界融合的必然趋势。尽管他拒绝预测"空间计算"成为主流的具体时间表,但强调这一技术方向具有不可逆转性。随着三项研究成果的陆续公布,苹果在空间计算领域的战略布局正逐步清晰,其技术积累或将为下一代交互设备奠定基础。









