ITBear旗下自媒体矩阵:

智源研究院发布“悟界”大模型,王仲远:具身智能小组赛正酣

   时间:2025-06-07 00:13:15 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

6月6日,第七届智源大会在北京盛大召开,这场被誉为“AI学术春晚”的盛会吸引了众多科技界精英的目光。会上,北京智源人工智能研究院(简称“智源研究院”)发布了一系列名为“悟界”的大模型,标志着AI技术迈向了全新的发展阶段。

作为我国在大模型研发领域的先行者,智源研究院此次推出的“悟界”系列大模型包括原生多模态世界模型Emu3、跨本体具身大小脑协作框架RoboOS 2.0与全新智源具身大脑RoboBrain 2.0、全球首个脑科学多模态通用基础模型见微Brainμ,以及全原子微观生命模型OpenComplex2。这些创新成果是在“悟道”系列大模型成功发布后的又一重要里程碑。

智源研究院院长王仲远在会前透露,AI大模型技术仍具有广阔的发展空间,当前阶段,AI在感知世界和空间方面存在不足,多模态数据尚未被充分利用。因此,从“悟道”到“悟界”的跨越是水到渠成的事,AI正加速从数字世界向物理世界迈进,这一趋势构成了实现物理AGI(通用人工智能)的关键路径。

“悟道”中的“道”代表了智源对大语言模型系统化方法和路径的探索,而“悟界”中的“界”则象征着虚实世界边界的不断突破。王仲远表示,“悟界”系列大模型体现了智源对AI技术从数字世界迈向物理世界的深刻洞察。

王仲远进一步指出,“具身智能”并非特指人形机器人的智能,因此“悟界”可以适配多种机器人类别,包括轮式单臂、轮式双臂、人形双足、四足等。目前,智源已与20多家具身智能领域的领军企业建立了深度的合作关系。

在与众多具身智能创业者及科研学术界专家的交流中,王仲远坚信,具身智能的“小组赛”尚未结束,仍处于激烈竞争的阶段。他呼吁行业内的更多参与方共同推动具身智能产业的发展,因为这将带来多元化的视角和理念。

王仲远还强调,当前人形机器人的硬件和模型技术均不够成熟。未来,机器人有望在特定场景,特别是相对封闭的场景中率先落地,如工厂中的固定、重复、枯燥甚至危险的任务,这将是具身智能的第一波红利。

智源研究院自2018年11月在北京海淀成立以来,一直致力于成为AI创新的引领者,挑战最基础的问题和最关键的难题。智源社区已链接超过19万名AI技术人员,并与近2000位海内外青年AI科学家紧密合作,共同加速AI原始创新。

在成立6年多的时间里,智源研究院率先预见AI大模型时代的到来,并于2020年组建了一支百余人的技术攻关团队,启动了悟道系列大模型的研发工作。截至目前,智源已发布悟道1.0、2.0、3.0等多个版本,构建了自主可控的全栈大模型技术开源体系,并成功孵化出多家国内头部大模型创业公司。

去年,智源大会发布了一系列技术产品,推动大模型从语言模型向多模态大模型延伸,并向世界模型方向演进,加速了从数字AI世界向物理AI世界的跨越。王仲远表示,实践证明,智源对技术演进路径的预判是正确的。

据透露,目前智源开源模型的全球总下载量已超过6.4亿次,比去年同期的4755万次提升了12.5倍。AI系统软件栈FlagOS已对11家国内外厂商的18款AI芯片实现了统一支持,开源了超过160个数据集,下载量近113万次,开源项目代码下载量也超过了140万次。

王仲远指出,尽管大模型技术取得了显著进展,但仍未到达发展的尽头。当前所说的“百模大战”主要集中在大语言模型的竞争上,而大语言模型受限于互联网数据的使用,基础模型性能的提升速度已不如以前。他提出了突破大语言模型性能提升瓶颈的三种方法:一是通过强化学习在后训练和推理上提升性能;二是数据合成,实现AI自我学习和进步;三是充分利用多模态数据。

为了推进AI与物理世界的交互,智源通过多种研发方式,利用原生多模态世界模型让AI感知和理解物理世界。在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题;在微观层面,基于生成式AI的蛋白质、脑机接口等应用,能够进一步揭示微观世界的本质,构建AI与物理世界交互的基座。

具体来说,原生多模态世界模型Emu3使大模型具备了理解和推理世界的能力。脑科学多模态通用基础模型见微Brainμ则基于Emu3架构,引入了脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。多模态与脑科学模型未来有望成为人机交互具身场景下的基础模型。

王仲远表示,虽然多模态技术路线尚未收敛,但文生图、文生视频等技术已取得了显著进展,并在某些特定场景中实现了落地。然而,这些技术能否广泛普及仍需一段时间。

RoboOS 2.0与RoboBrain 2.0在初代版本的基础上实现了性能的大幅提升,并新增了多机协作规划与物理常识驱动的空间推理能力。而OpenComplex2则能在原子分辨率层面捕捉分子相互作用及平衡构象,探索微观构象波动与宏观生物功能的跨尺度关联。

王仲远认为,具身智能目前仍处于技术探索的早期阶段,类似于大模型在GPT-3之前的摸索期。当前,具身智能面临多重挑战,包括核心技术路径不明确、数据采集困难以及软硬件协同复杂等问题。他预计,未来5-10年,大小脑融合的模型可能会逐渐成熟。

在开源模型方面,智源研究院已拥有多个通用向量模型,包括BGE系列等,这些模型已被百度、腾讯、华为、阿里巴巴、微软、亚马逊等知名企业商业化集成。智源还开源了轻量长视频理解模型Video-XL-2以及全能视觉生成模型OmniGen。

大会期间,智源研究院还与北京大学第一医院签署了战略合作协议,并与持有620亿港元的香港投资管理有限公司建立了战略合作框架,共同构建世界级跨区域合作的AI生态圈。这一合作将加速人才、技术、资本的融合,构建人才循环体系,支持AI创新创业,加速AI产业的全球化发展。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version