ITBear旗下自媒体矩阵:

清华AI创企无问芯穹开源端侧全模态模型Megrez-3B-Omni

   时间:2024-12-16 18:22:29 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近日,清华背景的AI基础设施创新企业无问芯穹宣布了一项重大开源举措,正式推出了针对端侧设备的全模态理解小模型Megrez-3B-Omni,并同步公开了其纯语言模型版本Megrez-3B-Instruct。这一举措标志着无问芯穹在推动人工智能向更广泛的端侧设备普及方面迈出了重要一步。

Megrez-3B-Omni专为端侧设备设计,拥有30亿参数,这一规模被视为手机、平板等设备的“黄金尺寸”。其结构紧凑且规整,使得单模态版本的推理速度在同精度模型中遥遥领先,最大提升可达300%。更该模型不仅具备处理图片、音频、文本三种模态数据的能力,还在多个测评基准中取得了同尺寸下的最优性能。

Megrez-3B-Omni的多模态处理能力非常灵活,响应迅速。例如,用户可以先拍摄一张单据照片并发送给模型,随后询问“6个人AA制,每人应付多少钱”,接着通过语音输入要求模型编写一段幽默文案催促大家交钱。模型能够立即按照要求生成文案,展示了其强大的处理能力和便捷性。

在与同样具备三模态处理能力的VITA(基于Mixtral 8×7B)、Baichuan-Omni-7B,以及双模态和单一模态的多个模型相比时,Megrez-3B-Omni在主流基准测试集上的表现同样出色,不落下风。Megrez-3B-Instruct还提供了WebSearch功能,支持调用外部工具进行网页搜索,进一步增强了其实用性。

无问芯穹由清华大学电子工程系教授汪玉发起,其技术团队源自清华大学电子工程系NICS-EFC实验室,在模型压缩、推理加速及硬件能耗优化等领域拥有深厚的学术研究和丰富的工程实践经验。公司以“释放无穹算力,让AGI触手可及”为使命,致力于成为大模型时代的首选“算力运营商”。

自成立以来,无问芯穹已吸引了包括百度、智谱AI、联想、小米和软通高科在内的多家知名企业投资。据透露,该公司今年已实现了规模化收入,主要来自算力销售,并计划明年进一步扩大市场份额。其端侧大模型推理处理器LPU将以IP形式与合作伙伴联合发布芯片,预计明年将有落地尝试。

作为无问芯穹“端模型+端软件+端IP”端上智能一体化解决方案的重要组成部分,Megrez-3B-Omni的推出被视为实现端侧AGI的关键一环。无问芯穹表示,这将是一个能力预览,未来将持续迭代Megrez系列,提升自动化水平,使用户仅需简单的语音指令即可完成端设备的设置或应用操作。

在图像理解方面,Megrez-3B-Omni以3B的参数规模实现了对34B模型性能的全面超越,成为多个主流测试集上精度最高的图像理解模型之一。它能够准确识别模糊印刷体和复杂手写字,展示了出色的场景理解和OCR能力。

在文本理解方面,Megrez-3B-Omni同样表现出色,将上一代14B大模型的优秀能力压缩至3B规模,实现了更高的性能输出和更低的计算成本。它在多个权威测试集上取得了端上模型最优精度,为端侧设备的智能化提供了全新可能。

在语音理解方面,Megrez-3B-Omni支持中文和英文的语音输入,能够处理复杂的多轮对话场景,并支持对输入图片或文字的语音提问,实现了不同模态间的自由切换。Megrez-3B-Instruct还提供了WebSearch功能,能够智能判断何时调用外部工具进行网页搜索,辅助回答用户问题。

通过软硬件联合优化,无问芯穹的端上智能一体化解决方案将为端侧设备提供更完整、高效的智能方案,促进大模型在端侧设备上实现更高推理速度与更低能耗,推动人工智能技术的普及和发展。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version