ITBear旗下自媒体矩阵:

印度AI实验室Sarvam发布两款MoE架构大语言模型 本地化测试表现亮眼

   时间:2026-02-20 23:56:43 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

印度人工智能实验室Sarvam在近日举行的人工智能影响力峰会上,正式推出两款自主研发的最新一代大语言模型。这两款模型基于混合专家(MoE)架构打造,采用从底层架构到训练框架的完全自主技术路线,标志着印度在生成式AI领域取得重要突破。

据技术白皮书披露,此次发布的模型包含300亿参数的轻量级版本和1050亿参数的旗舰版本。轻量级模型采用30B-A1B架构设计,预训练数据规模达16万亿token,支持32K上下文窗口,特别针对实时交互场景进行优化,在保持低延迟的同时实现高效推理。该模型已通过多项基准测试验证,在对话响应速度和资源占用率方面表现突出。

旗舰级105B-A9B模型则展现出更强大的处理能力,其128K上下文窗口可支持超长文本分析,在复杂逻辑推理和多轮对话任务中表现优异。实验室负责人特别强调,该模型在印度本土语言处理方面实现重大突破,在包含12种印度官方语言的综合测试集中,准确率较国际主流模型提升17.6%,特别是在方言识别和语义理解层面表现突出。

在性能对比测试中,105B-A9B模型展现出显著优势。针对印度市场定制的评估基准显示,该模型在本地化任务中的表现超越谷歌Gemini 2.5 Flash等国际竞品。在通用能力测试中,其数学推理和代码生成能力在多数指标上领先DeepSeek R1,在多模态理解等部分领域与Gemini Flash形成有力竞争。实验室透露,模型训练过程中特别强化了对南亚文化语境的理解,在处理宗教典籍、历史文献等垂直领域时具有独特优势。

开发团队宣布,两款模型将采取阶梯式开放策略。即日起在Hugging Face平台开放基础权重下载,供全球开发者进行本地化微调。三月中旬将推出API接口服务,支持企业级用户进行商业部署。配套的可视化仪表盘系统也在开发中,该系统将提供模型训练监控、性能评估等全流程管理功能,预计二季度正式上线。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version