ITBear旗下自媒体矩阵:

智象未来推200B参数图像大模型,以原生全模态架构迈向理解世界新阶段

   时间:2026-05-21 21:41:37 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在近期举办的一场行业开放日活动中,人工智能企业智象未来宣布推出新一代图像生成大模型HiDream-O1-Image-Pro,并同步完成第二轮战略融资。该模型基于自主研发的UiT(Unified Transformer)原生全模态架构,参数规模突破2000亿级,在复杂语义理解、多主体生成等维度刷新多项国际权威评测纪录。此次融资由深创投、金浦投资等机构领投,显示资本市场对"原生全模态"技术路线的持续看好。

传统视觉生成模型普遍采用"VAE编码+语言模型拼接"的架构,这种碎片化设计在处理复杂场景时存在语义割裂问题。智象未来研发的UiT架构通过构建连续共享标记空间,将图像像素、文本语义及任务指令统一编码,实现从底层表征到高层推理的深度融合。测试数据显示,其8B参数开源版本已在Artificial Analysis平台登顶全球开源模型榜首,成为前20名中体积最小的性能领先者。

作为闭源商业版本,HiDream-O1-Image-Pro展现出显著的技术优势。该模型不仅支持超高精度的文生图生成,更突破性地解决了中文书法渲染、多物体空间关系处理等难题。在电商场景测试中,模型可精准理解"穿汉服的少女在樱花树下弹古筝"这类复合指令,生成画面中人物服饰纹理、乐器结构细节均符合物理规律。

商业落地层面,智象未来构建了"模型+智能体"的双轮驱动体系。其商业营销智能体HiBurst已服务TikTok平台头部商家,年产出营销视频超百万条,带动相关商品交易总额突破亿元;AI影视创作平台"帧赞"实现从剧本生成到动画渲染的全链条自动化,累计制作短剧时长超5000分钟;社媒创作工具vivago覆盖全球100余国用户,支持多语言长文本到视频的分钟级转换。

在生态合作方面,该公司与上影新视野基金、蓝色光标等机构达成战略协议,将技术能力延伸至影视制作、跨境电商、医疗健康等领域。通过与倍尔健康合作开发的AI辅助诊断系统,已实现医学影像与病历文本的联合建模分析,提升疾病识别准确率的同时降低误诊风险。

创始人梅涛在技术分享中强调,真正的多模态应具备"世界建模"能力。UiT架构通过内置空间关系、物理定律等基础规则,使模型能够理解不同模态数据间的内在联系,这为通用人工智能(AGI)发展提供了新路径。目前团队正探索将架构扩展至三维空间建模,未来或可实现动态场景的实时预测与生成。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version