ITBear旗下自媒体矩阵:

快手发布Keye-VL-671B-A37B模型:多模态理解与推理能力再上新台阶

   时间:2025-11-29 01:02:22 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

快手在人工智能领域再推重磅成果,正式对外发布新一代旗舰级多模态模型Keye-VL-671B-A37B,并同步开源其核心代码。这款以“视觉理解与逻辑推理深度融合”为特色的模型,在通用视觉识别、视频内容分析、数学问题求解等关键技术评测中展现出显著优势,标志着我国多模态大模型研发进入新阶段。

技术团队介绍,该模型通过架构创新实现了三大突破:在视觉感知层面,基于升级版KeyeViT视觉编码器构建的视觉模块,可精准捕捉图像细节特征;跨模态对齐机制采用动态注意力分配策略,使文本与视觉信息的融合效率提升40%;推理链路设计引入层级化思维框架,支持从基础认知到复杂决策的逐步推导。这些改进使模型在真实场景中的响应准确率达到92.3%,较前代产品提升17个百分点。

模型训练体系呈现显著工程化特征。研发团队构建了包含3000亿token的预训练数据集,其中高质量图文对占比达65%,视频数据经过时空语义标注处理。训练流程采用三阶段渐进式优化:首阶段冻结核心参数完成模态对齐,第二阶段全参数联合训练构建基础能力,最终通过退火训练强化细粒度特征提取。后训练阶段引入多任务联合优化机制,覆盖视觉问答、图表解析、多语言OCR等20余个专业领域。

在基础架构方面,模型采用DeepSeek-V3-Terminus作为语言基座,通过多层感知机(MLP)实现与视觉模块的解耦连接。这种设计既保证了语言理解能力的继承性,又为视觉特征提取保留独立优化空间。实测数据显示,在处理包含复杂视觉元素的推理任务时,模型响应速度较传统融合架构提升2.3倍,内存占用降低35%。

快手AI实验室负责人透露,下一代研发将聚焦两大方向:一是强化工具调用能力,通过构建多模态代理(Agent)系统,使模型能自主调用搜索引擎、计算器等外部工具;二是深化“视觉思维”研究,开发支持图像/视频内容深度解析的推理框架。目前团队已启动相关技术预研,预计年内推出具备初级工具使用能力的实验版本。

行业分析师指出,该模型的开源策略将加速多模态技术生态建设。其提供的模块化设计允许开发者根据需求定制功能组件,特别在医疗影像分析、工业质检等垂直领域具有广泛应用前景。随着模型能力的持续进化,多模态AI系统正从单一感知向认知决策层面突破,这或将重新定义人机交互的技术边界。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version