ITBear旗下自媒体矩阵:

东北大学“小牛翻译”开源新模型:60种语言234个方向全覆盖,低资源语言翻译迎突破

   时间:2025-11-13 12:10:19 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

东北大学“小牛翻译”团队近日宣布开源其最新研发的多语言翻译大模型NiuTrans.LMT,该模型支持60种语言的双向互译,覆盖234个翻译方向,不仅构建了以中文和英文为核心的全语种桥梁,更在藏语、阿姆哈拉语等29种低资源语言翻译领域实现重大突破,为全球语言平等提供了关键技术支撑。

与传统翻译模型依赖英语作为单一枢纽不同,NiuTrans.LMT采用中-英双中心架构设计。这一创新模式支持中文与58种语言、英文与59种语言的直接高质量互译,避免了传统“中文→英文→小语种”路径可能导致的语义失真。尤其对“一带一路”沿线国家而言,该架构显著提升了中文与当地语言的沟通效率,推动了跨文化交流的去中介化进程。

在语言资源覆盖方面,模型通过三级分层策略实现效率与公平的平衡:针对法语、阿拉伯语等13种高资源语言,翻译质量已达到人类水平;印地语、芬兰语等18种中资源语言的翻译在专业术语和语法结构上保持高度准确性;针对藏语、斯瓦希里语等29种低资源语言,通过数据增强和迁移学习技术,成功突破了“不可译”的技术瓶颈,使这些语言的翻译从“无法使用”提升至“可用”水平。

该模型在FLORES-200多语言基准测试中表现优异,位居全球开源模型首位。其卓越性能源于独特的两阶段训练方法:在包含900亿tokens的多语言语料库中进行均衡预训练,确保小语种数据不被稀释;随后通过整合FLORES-200、WMT等权威数据集(含56.7万条样本、覆盖117个翻译方向)进行监督微调,优化翻译准确性和风格一致性。

为满足不同应用场景需求,团队同步开源了四种参数规模的模型版本,包括0.6B、1.7B、4B和8B。其中轻量级版本可在消费级GPU上运行,适用于移动端部署;8B版本则面向企业级高精度需求,支持API集成和私有化部署。所有模型均已在GitHub和Hugging Face平台开放下载。

行业观察人士指出,NiuTrans.LMT的开源不仅代表技术突破,更体现了对语言多样性保护的实际行动。当AI能够精准传递藏语诗歌的韵律、非洲谚语的智慧或北欧古语的内涵时,技术才真正具备了人文温度。这项成果为构建无语言障碍的数字世界奠定了重要基础。

项目开源地址:https://github.com/NiuTrans/LMT

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version