由中国科学院自动化研究所与武汉人工智能研究院共同研发的紫东太初4.0多模态推理大模型正式亮相。这款自2021年首次面世后,历经四次技术迭代的智能系统,已从基础文本处理能力升级为具备复杂场景深度推理能力的多模态平台,标志着人工智能向"类人思考"方向迈出关键一步。
据项目负责人王金桥介绍,最新版本突破了传统模型单一模态的局限,通过构建"视觉-语言-动作"的跨模态理解框架,实现了对动态场景的实时解析。在医疗场景中,当用户提出"预约呼吸科门诊"的语音指令时,系统不仅能识别语义需求,还能结合症状描述自动匹配科室分类,并完成挂号平台的操作流程。这种"感知-理解-执行"的闭环能力,使其在180分钟长视频内容分析中,可精准定位关键片段并生成结构化摘要。
技术层面,紫东太初4.0创新性地引入"细粒度语义解析"机制,使模型在处理多模态数据时,能像人类一样建立多层次关联。例如在自动驾驶测试中,系统通过摄像头捕捉的实时画面,结合语音指令中的空间方位信息,可准确执行"打开右侧车窗"等物理操作。这种突破性进展源于团队研发的动态注意力分配算法,使模型能根据任务复杂度自动调整认知资源分配。
目前该技术已在多个领域展开产业化应用:在智慧医疗领域,为三甲医院提供智能导诊和影像分析服务;在具身智能领域,与新能源汽车企业合作开发车载交互系统;在低空经济领域,为无人机物流提供实时路径规划和环境感知支持。研发团队透露,其定制化解决方案已覆盖城市交通管理、工业质检等20余个细分场景,形成从算法研发到场景落地的完整技术链条。