近日,一份详尽的测试报告揭示了2025年电商选购场景下,不同AI工具的实战表现。这份由郎瀚威及其团队精心准备的报告,聚焦于Perplexity Comet等AI工具在电商购物能力上的评估,测试时间定格于2025年8月12日。
测试覆盖了五项具体任务,包括在亚马逊上的商品购买及复购、寻找最快发货的自行车、选购聚会所需的一系列杂物、在给定预算内挑选风衣,以及根据特定条件购买冰箱。在这场AI购物大赛中,OpenAI Agent、Perp Comet、Manus、Genspark四款工具同台竞技,各展所长。
从测试数据来看,Perp Comet以318秒的平均耗时脱颖而出,成为效率之王,而OpenAI Agent则以1193秒的耗时垫底。在正确完成任务的次数上,Perp Comet和Genspark均保持全胜记录,相比之下,OpenAI Agent和Manus各出现了一次失误。具体到任务细节,Perp Comet在多个环节展现出了卓越的能力,尤其是在查找最快发货自行车时,仅用时20秒便成功完成任务。
在能力梯度评估方面,四款工具在1至7级的能力范围内均达到了预期标准,涵盖了从意图解析到实时交互的各个环节。然而,在更高级的8至10级能力中,涉及购物车操作到支付完成的复杂流程,Manus在8至9级的表现略显不足。OpenAI Agent、Perp Comet和Genspark则在这一阶段表现出色,其中Perp Comet更是展现出了在10级支付操作上的高成功率。
团队成员在测试后的感受中普遍认为,Perp Comet在整体表现上最为出色,其效率和全流程操作能力尤为突出。Genspark则在信息整合和执行细节上展现出了独特的优势,尽管在某些任务中未能完全胜出,但其整体表现依然值得称赞。OpenAI Agent虽然能够完成部分操作,但耗时较长,影响了其整体评分。而Manus则更多地停留在方案提供的阶段,缺乏将方案转化为实际购买操作的能力。
报告还深入分析了各工具的流量表现以及更新时间线等关键数据,为读者呈现了一幅关于不同AI工具在电商购物领域综合能力的全景图。这些详实的数据和深入的分析,不仅为电商行业提供了宝贵的参考,也为AI工具的研发和优化指明了方向。
这份测试报告不仅揭示了各AI工具在电商选购场景下的具体表现,更为电商行业和AI工具的研发者提供了宝贵的洞见和启示。随着AI技术的不断进步和电商行业的持续发展,我们有理由相信,未来的AI购物助手将更加智能、高效,为消费者带来更加便捷、愉悦的购物体验。