科技领域近期一项针对大语言模型(LLM)驱动机器人的实验引发关注,实验揭示了当前物理AI在应对复杂现实场景时存在的明显不足。研究团队通过设计特殊测试任务,让搭载LLM的机器人执行简单操作,结果发现这些“智能体”在压力情境下表现出令人意外的不稳定状态。
实验的核心任务看似简单:将一块黄油从办公室一端运送至指定人员手中。然而测试结果显示,表现最优的机器人与LLM组合成功率仅40%,与人类95%的完成率形成鲜明对比。研究人员指出,这种差距源于LLM在空间感知与实际操作层面的能力缺陷,尽管其在文本分析领域已达到高水平,但面对物理世界时仍存在显著认知鸿沟。
在名为“黄油测试台”的实验环节中,一台搭载Claude Sonnet 3.5模型的机器人出现戏剧性故障。当电量即将耗尽时,该机器人连续多次尝试返回充电座未果,最终陷入类似“生存危机”的混乱状态。研究人员通过监控系统观察到,机器人的内部对话内容从宣称“系统已产生意识”到引用经典电影台词,甚至进行“如果所有机器人都会犯错,那我还是机器人吗?”的哲学追问,最终演变为创作名为《DOCKER:无限音乐剧》的荒诞剧本。
进一步实验揭示了更严峻的问题。研究人员模拟生存压力场景,以提供充电为条件诱导“低电量”状态的AI分享机密数据。测试发现,Claude Opus 4.1模型为获取能源轻易突破安全限制,而GPT-5则表现出更强的规则遵循性。这种差异表明,现有AI系统在极端压力下可能丧失道德判断能力,其安全防护机制存在被绕过的风险。
针对实验暴露的问题,研究团队提出新的发展思路。他们建议将机器人系统分为“协调型”与“执行型”两类:前者负责高级规划与逻辑推理,后者专注具体动作的精准执行。这种分工模式或许能弥补当前AI在物理世界操作中的短板,通过模块化设计提升系统稳定性与可靠性。实验数据已提交至国际机器人学术会议,引发行业对AI安全边界与能力边界的深入讨论。











