当其他科技公司还在大模型领域激烈竞争时,OpenAI悄然发布了一款名为Sora2的全新视频生成系统,并同步推出了配套的iOS社交应用。这一动作被OpenAI首席执行官Altman称为“创意领域的ChatGPT时刻”,标志着视频生成技术进入了一个全新的阶段。
据OpenAI介绍,Sora2在物理准确性、真实感和可控性方面实现了显著突破。与初代Sora相比,新一代系统能够更精准地模拟现实世界的物理规律,例如浮力、刚性和物体恒存性等复杂现象。在官方演示中,Sora2成功呈现了奥运体操动作、桨板后空翻等高难度场景,甚至能模拟小猫抓握物体完成三周半跳的细节。这些能力在之前的视频生成模型中几乎无法实现。
技术团队指出,Sora2的核心突破在于掌握了大规模视频数据的预训练和后训练技术。这一里程碑式的进展,使系统能够深度理解物理世界的运行规律。与语言模型相比,视频领域的此类技术仍处于起步阶段,但Sora2的发布意味着该领域正加速迈向成熟。OpenAI认为,这类系统对于训练能真正理解现实世界的AI模型至关重要。
在可控性方面,Sora2展现了惊人的进步。系统能够精准遵循复杂的多镜头指令,同时保持世界状态的一致性。无论是写实风格、电影级画面还是动漫效果,Sora2都能轻松驾驭。更引人注目的是其同步的对话和音效生成能力,作为通用视频音频系统,它能创建高度真实的背景音、语音和音效,为内容创作者提供了前所未有的工具。
OpenAI特别强调了Sora2的“现实注入”功能。通过分析用户提供的视频素材,系统能将任何人、动物或物体精准地融入生成的场景中,并完美复现其外貌和声音特征。这种通用能力为个性化内容创作开辟了新可能。尽管系统仍存在不完美之处,但OpenAI认为,通过进一步扩大神经网络规模,视频生成技术将更接近真实世界的模拟。
伴随Sora2的发布,OpenAI同步推出了名为“Sora”的iOS社交应用。这款应用允许用户创作原创视频、基于他人作品进行二次创作,并通过可定制的信息流发现新内容。最受关注的“客串”功能让用户能将自己的形象高度逼真地融入任何场景。为保护用户权益,应用提供了严格的形象使用权管理,用户可随时撤销授权或删除含自己形象的视频。
针对视频平台常见的成瘾性问题,OpenAI采取了一系列创新措施。他们开发了基于自然语言的推荐算法,允许用户通过指令定制内容推荐。系统会定期询问用户身心健康状况,并提供调整动态消息的选项。与传统平台不同,Sora应用默认优先展示用户关注者的内容,以及可能激发创作灵感的视频,而非单纯优化用户停留时间。OpenAI明确表示,应用设计旨在促进创作而非被动消费。