商汤科技近日宣布,其日日新SenseNova U1系列迎来全新成员——U1-8B-MoT-Interleaved图文交错增强版模型正式开源。该模型针对图文混合创作场景进行深度优化,重点解决了传统多模态模型在连续内容生成中存在的角色形象不一致、画面风格割裂、图文内容错位等核心问题,为绘本创作、故事书生成、多页PPT设计及图文教程制作等应用场景提供更高效的解决方案。
在技术升级层面,新模型通过四大核心突破实现性能跃升。首先,叙事连贯性得到质的提升,模型在长文本生成过程中可保持故事线严格统一,人物形象从首页到末页均呈现高度一致性,有效避免了传统模型因多轮生成导致的角色特征漂移问题。其次,图文语义对齐能力显著增强,经过专项训练的模型能够精准捕捉文字描述中的空间关系、动态动作及复杂场景细节,生成的图像与文本内容匹配度大幅提升。
针对视觉质量优化,研发团队对人物结构、文字渲染、版面布局等高频问题区域进行定向改进。通过引入新型损失函数与训练策略,模型生成的图像中常见的视觉瑕疵(如文字扭曲、肢体变形、排版错乱等)发生率降低超过60%,画面整体质量达到行业领先水平。特别在多页内容生成方面,新模型展现出独特的架构优势,能够自动识别输入文本的逻辑层次,智能完成要点提取、版面设计与文字排版。
据技术文档披露,该模型在训练阶段构建了包含百万级图文交错样本的专用数据集,采用渐进式训练策略逐步强化模型对连续叙事的理解能力。在多页PPT生成测试中,模型可自动将3000字左右的输入文本转化为包含15-20页的完整演示文档,其中图文布局合理度达到92%,关键信息覆盖率超过95%。这项突破性功能将极大缩短专业人士的文档制作周期,同时降低非专业用户的创作门槛。
行业分析师指出,此次开源的增强版模型标志着多模态生成技术从单页创作向长内容生成的范式转变。其特有的叙事保持机制与智能排版能力,不仅为教育出版、商业演示等领域提供新的技术工具,更可能催生图文创作领域的全新应用形态。随着模型代码与训练框架的全面开放,预计将吸引更多开发者参与生态共建,推动图文创作技术的持续进化。











