今年春节,一款名为OpenClaw的AI应用迅速走红,但热度仅维持了不到两个月便迅速消退。这场短暂的狂欢,让人们再次思考:AI应用究竟在解决什么问题?下一个现象级产品又将出现在哪里?这些问题至今没有明确答案。
以手机摄影为例,现代影像旗舰手机已能捕捉到夜景中人脸的细微水光,却无法判断拍摄对象是否刚刚哭泣;长焦镜头可将数百米外的行人拉至眼前,但无法识别其是匆忙赶路还是在寻找物品。同样,当前的AI智能体能够编写代码、整理PDF文件,但这些能力仅限于处理已数字化的信息。面对物理世界的复杂场景,AI仍显得无能为力。
从现有大模型到能够理解物理世界的“具身智能”,中间横亘着一道难以逾越的鸿沟。vivo总裁兼首席运营官胡柏山在博鳌亚洲论坛上指出,这道鸿沟正是当前AI发展的核心挑战。他强调,在真正的物理大模型出现之前,将物理世界信息转化为数字世界信息是提升用户体验的关键途径。
过去两年,手机厂商纷纷布局AI领域,大模型接入、智能助手升级、端侧算力提升成为竞争焦点。然而,胡柏山认为,这种竞争最终将导致大模型的高度商品化和同质化。他直言:“大模型之间的差异不大,只是时间先后的区别。”在这种背景下,单纯比拼模型能力已无法形成竞争优势。
vivo的选择是聚焦“感知”能力。胡柏山表示,相比模型能力,积累的场景数据更具差异化价值。场景数据需要随着用户行为逐渐积累,无法通过短期投入或简单复制获得。vivo在影像领域十年的积累,正是其感知战略的底层支撑。
感知并非简单的“更好的相机”。胡柏山解释,相机是被动记录工具,而感知需要主动观察、理解环境,并将信息转化为设备可处理的输入。这一过程需要重建系统架构,将感知信息与设备决策系统实时打通。目前,这一目标仍面临技术挑战,尤其是如何将原始感知数据转化为结构化信息。
vivo将感知设为一级技术赛道,涵盖视觉、听觉、触觉等多种感官方向。胡柏山以vivo的通信研究院为例,说明感知研发将采取长期投入、渐进式加速的策略。他强调,感知是一个天花板很高但技术路线尚不明确的领域,vivo准备用五年到十年的时间持续探索,避免盲目投入导致资源浪费。
在硬件层面,vivo与蔡司的合作已进入联合研发深水区,传感器尺寸和半导体转化效率不断提升。例如,X300 Ultra的主摄传感器尺寸达到1/1.12英寸,并采用了提升进光转化率的新技术。在算法层面,vivo三年前提出的长焦大底概念已被全行业跟进,但其背后的认知和算法优势难以被快速复制。
X300 Ultra首次提出的“多agent”理念,体现了vivo在端侧AI上的独特思路。不同场景对应不同专项agent,既分工明确又协同工作。例如,拍照时有一个agent判断拍摄对象和光线条件,另一个agent则根据用户习惯自动整理相册或剪辑视频。胡柏山认为,现有硬件算力无法支撑一个“超级agent”,AI发展需结合硬件能力上限逐步推进。
vivo的长期规划中,手机仍是核心产品,MR设备需要三到四年时间发展,机器人则需五年以上。这三个方向共享同一套感知能力,形成技术延伸。去年成立的机器人Lab聚焦“大脑和眼睛”,胡柏山透露,2025年将明确阶段性目标,2026年制定清晰路径。他强调,vivo不会盲目追求通用机器人,而是从具体场景切入,如照顾宠物或叠衣服,通过数据积累逐步扩展能力。
在手机与机器人的协同上,胡柏山认为,手机是最懂用户的数字助理,可存储行为习惯和偏好数据。机器人早期无法完成的任务,可由手机远程介入补充。这种“沿途下蛋”的策略,与手机端感知能力的积累逻辑一致:先做好影像agent,再逐步扩展感知范围。
面对AI眼镜等新兴品类的热度,vivo选择暂停相关项目。胡柏山算了一笔账:年销量几十万台不符合目标体量,两年内难以形成差异化,技术平台也无法支撑良好体验。这种“少押注,押重注”的策略,与硅谷巨头聚焦核心优势的思路不谋而合。
当前手机行业面临换机周期延长、销量下滑的挑战,但AI带来的能力跃升仍让人看到增量空间。胡柏山认为,从智能手机到智能体手机的转型,是激活存量市场的关键。而感知能力,正是这一转型中最难被复制的护城河。











