在计算机视觉与人工智能的交汇点上,Soul App再次以其卓越的技术实力吸引了业界的目光。近日,Soul App提交的技术论文《Teller:基于自回归运动生成技术的实时音频驱动人像动画》,成功被全球计算机视觉顶级会议CVPR 2025接纳,标志着Soul在AI社交技术的探索上迈出了重要一步。
CVPR,作为计算机视觉领域的顶尖盛会,每年吸引着全球范围内的顶尖学者与研究团队投稿。据官方数据,CVPR 2025共收到13008篇投稿,而最终仅录用2878篇,录用率仅为22.1%,竞争之激烈不言而喻。Soul App的技术论文能够脱颖而出,无疑是对其技术创新实力的有力证明。
其实,Soul在AI领域的探索早已有之。去年,Soul的多模态情感识别研究就曾入选ACM国际多媒体会议研讨会,并在国际人工智能联合会议的挑战赛中荣获半监督学习赛道的冠军。从2016年推出的基于AI算法的灵犀引擎,到2023年自研语言大模型Soul X的问世,再到如今多模态端到端大模型的升级,Soul始终致力于AI社交技术的研发与创新。
此次被CVPR 2025录用的论文,提出了一个全新的实时音频驱动人像动画框架。该框架将传统的talking head任务巧妙地拆分为面部运动生成和高效身体运动生成两个模块,不仅显著提高了视频生成的效率,还使得生成效果更加自然、拟人。这一创新成果,是Soul在语音、视觉和自然语言处理(NLP)领域深度融合的又一力作,为AI社交交互体验的真实感提升奠定了坚实基础。
在此之前,Soul已经基于多模态大模型推出了语音交互功能,并收获了用户的广泛好评。此次从语音到视觉的交互模态升级,将为用户带来更加沉浸式的社交体验。通过这一技术,用户可以在实时视频通话中享受到更加自然流畅的交互,甚至在未来,这一技术还将应用于AI虚拟人的情感化陪伴等多元场景,进一步提升人机交互的情感温度。
Soul在AI社交领域的持续深耕,不仅为用户带来了更加优质的体验,也为整个行业的发展注入了新的活力。Soul的技术创新,不仅展现了AI技术在社交领域的巨大潜力,也为其他企业提供了宝贵的经验和启示。
Soul的技术创新并未止步于此。随着AI技术的不断发展,Soul将继续探索AI在社交领域的更多应用可能,不断推出更加智能、有趣的社交功能,为用户打造更加温馨、有趣的社交空间。
同时,Soul也将积极与业界同行交流合作,共同推动AI社交技术的发展和进步。通过开放合作、共享资源,Soul将与业界共同探索AI社交的未来之路,为用户带来更加丰富、多元的社交体验。