生数科技近日正式推出了一款专为实时交互场景设计的创新模型——Vidu S1实时交互模型,为数字人交互领域带来了新的突破。这款模型不仅支持实时视频通话,还允许用户通过语音指令控制视频内容的发展方向,实现了前所未有的互动体验。
Vidu S1的独特之处在于其无限时长的连续互动能力。用户可以随时通过语音指令调整数字人的行为,无论是改变表情、动作还是视频的整体走向,都能得到实时响应。这种灵活性使得交互过程更加自然流畅,极大地提升了用户体验。
在技术规格方面,Vidu S1支持540P(960x540)的高清分辨率和25FPS的帧率,最高可提升至42FPS,确保视频画面的清晰度和流畅性。该模型还允许用户基于真人、动漫或萌宠等任意初始形象,结合个性化音色,快速创建专属的交互角色,满足多样化的需求。
Vidu S1采用了自回归扩散模型(AR + Diffusion)的技术路线,这一创新方法改变了传统视频生成的模式。模型不再一次性生成完整视频,而是基于已生成的历史画面,结合当前的语音指令和对话上下文,持续预测并生成后续内容。这种动态生成机制使得视频内容能够根据用户的实时输入不断调整,实现了真正的交互式体验。
在实际应用中,当用户发出新的语音指令时,Vidu S1能够迅速理解并调整角色的表情、动作以及视频的后续走向。这种能力使得视频内容从预先确定的固定模式转变为一个持续生成、实时响应的动态过程,为用户带来了更加丰富和个性化的交互体验。











