滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

百度蒸汽机2.0有声版体验：钟馗开口，音画同步效果初显

时间：2025-08-22 21:26:14 来源：ITBEAR编辑：快讯 IP：北京 发表评论无障碍通道

百度近日正式推出了其蒸汽机2.0大模型，这一创新技术标志着全球首个支持中文音视频一体化生成的大模型的问世。蒸汽机2.0在原有图像生成视频的基础上，新增了“有声版”，实现了环境音效、人声对白及嘴型同步的全方位支持，真正做到了画面与声音的同步生成。

该模型的最大亮点在于其“形神音容”一体化生成能力，将以往需要分别完成的视频画面、配音效与对白同步三个步骤，整合为一次生成完成，极大地提升了效率。这一突破性的技术革新，被形象地比喻为“三步并一步”。

在价格方面，蒸汽机2.0 Turbo有声版的定价为每5秒1.4元，据百度透露，这一价格相较于行业平均成本，大约低了三成，显示出其强大的竞争力。

从技术细节上看，蒸汽机2.0模型引入了更为复杂的镜头语言，如“绕镜”等动态运镜方式，同时配合大规模提示词理解能力的升级，使得用户即使输入简短的自然语言，也能生成画面流畅、镜头调度自然的视频内容。这一改进，无疑为用户提供了更加便捷和高效的使用体验。

在声音方面，蒸汽机2.0模型不仅同步生成环境声与人声，还努力做到人物动作与唇形的精准匹配。该模型支持“多人对话、嘴型对齐、角色情绪同步”等多模态生成任务，背后由“多模态潜在空间规划”机制支撑，能在建模阶段统一规划角色身份、语气、对话内容与视觉呈现，确保生成的视频内容整体感强、叙事一致。

百度还特别强调了蒸汽机2.0在中文场景下的适配能力，包括中文发音结构的唇形匹配、语境识别与本地化音色模拟，使得生成的中文视频内容在语境下具备更高的拟真度。

在实际体验中，蒸汽机2.0展现了其多样化的生成能力。无论是冲浪者与巨浪共舞的震撼场景，还是海底世界美丽鱼群的细腻描绘，蒸汽机2.0都能以逼真的画面和流畅的动作呈现。同时，在创意简单表达、极速生成的Lite版本中，虽然背景人物动作偶尔有些僵硬，但整体画面氛围和细节处理仍令人印象深刻。

在有声版体验中，蒸汽机2.0对于音效和对话的生成也展现出了不俗的实力。尽管在初次尝试中，模型对于提示词的理解存在些许偏差，但在调整提示词后，模型能够准确地还原角色的台词、音色和语气，同时嘴型同步效果也十分清晰，声音生成与画面的衔接自然流畅。

百度蒸汽机2.0的推出，无疑为音视频生成领域带来了新的突破。虽然声音生成的准确性和口型协调仍有待进一步提升，但其在“形神音容”一体化生成方向上迈出的这一步，无疑为未来的技术发展奠定了坚实的基础。

更多>同类资讯

春晚人形机器人惊艳亮相：A股新材料企业发力助力机器人产业升级突围

02-23

华为引领新潮流：构建人工智能算力网络，赋能产业加速发展新篇章

如今，中国人工智能产业再次打造又一张王牌——将各地的人工智能计算中心升级，构建全新模式“人工智能算力网络”。人工智能算力网络将各地的人工智能计算中心连接成网，以“一网络”实现算力、数据、生态“三汇聚”，…

02-23

法拉第未来EAI机器人下周交付，多系列亮相且销售合作获阶段性成果

02-23

机器人贺岁展风采产业升级正当时现存企业超105万家

02-23

1.69亿美元押注MSIC路线：Taalas专用芯片能否撬动AI算力新格局？

02-23

MiniMax M2.5崛起：从内部需求出发，打造开发者最需要的模型范本

02-23

春节支付宝“AI付”与蚂蚁阿福APP双双突破1亿用户大关

02-23

三星Galaxy S26 Ultra真机亮相：骁龙8E5高配版+隐私屏技术引关注

02-23

从基础架构到应用模式：一文读懂人工智能大模型核心要点

模型参数规模决定能力边界，参数越多可处理的任务越复杂，但对计算资源要求更高。为解决大模型训练与部署的资源问题，模型蒸馏、稀疏化、量化等技术实现模型压缩，MoE 架构动态激活参数，模型并行、数据并行提升训练效率…

02-23

英伟达拟对Rubin GPU的HBM4分档，平衡性能与供应以扩大出货规模

02-23

贾跃亭宣布法拉第未来EAI机器人下周首批交付销售合作与产品规划稳步推进

02-23

OpenAI 2025年收入超预期达130亿美元支出80亿 2030年计划豪掷6000亿算力费

02-23

三星Galaxy S26 Ultra真机亮相：骁龙8E5高配+隐私屏技术引关注

02-23

法拉第未来EAI机器人下周交付销售合作取得成果多款产品待发布

IT之家 2 月 23 日消息，贾跃亭今日发布视频，公布了法拉第未来 EAI 机器人进展：下周正式开启首批交付，Futurist 和Master 销售和交付所需的前期认证及合规工作已经完成，Aegis 也将…

02-23

三星Galaxy S26 Ultra真机亮相：骁龙8E5高配加持隐私屏技术成亮点

IT之家 2 月 23 日消息，三星“Galaxy Unpacked”发布活动将在本周到来，最新一代 Galaxy S26系列旗舰手机即将发布。博主 @数码闲聊站今日发文：三星 S26 Ultra 真机…

02-23

点击查看更多 +

全站最新

肥胖增感染重症风险三倍，现存健身相关企业超167.5万家

女子自称孙悟空后人引热议，携猴毛灵石求版权，专家鉴定后闹剧收场

春节返程倒计时，自驾、列车、飞机出行安全指南请查收！

小米YU7销量狂飙：年轻群体与BBA老车主为何纷纷“倒戈”？

蔚来换电春节火力全开：连续五日创新高，单日总量突破177627次

比亚迪领汇M9官图亮相！7座布局配侧滑门 5145mm车长搭载插混系统

热门内容

本栏最新

华为引领新潮流：构建人工智能算力网络，赋能产业加速发展新篇章

宇树CEO王兴兴：机器人技术如少年成长，大规模应用未来可期

中国芯片实力获认可：丰田铃木等外企选用，成本品质双重优势凸显

黄仁勋预热GTC 2026：将推“世界前所未见”芯片突破技术极限引期待

黄仁勋预热GTC 2026：将推“世界未见”芯片突破技术极限引期待

黄仁勋预热GTC 2026：将推“世界前所未见”芯片突破技术极限再领跑

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.