国家数据局近日正式将“词元”确立为Token的官方译名,这一举措不仅为行业术语统一奠定基础,更折射出人工智能领域底层架构的深刻变革。据披露,国内日均Token调用量已突破140万亿规模,但当前仍以文本处理为主。随着语音、视频及实时交互场景的爆发式增长,Token的生成与消耗模式正经历根本性转变——从离散文本向连续感知跃迁,从低频批量输入转向高频流式处理,这种范式转换将直接决定下一代AI系统的能力边界与成本结构。
在学术领域,复旦大学邱锡鹏教授早在2021年便提出“词元”译法,强调其既区别于自然语言的“词”概念,又保留语言处理基本单位的本质。随着大模型技术从文本向多模态延伸,词元已超越术语范畴,演变为智能系统底层组织的核心要素。这种认知转变正引发资本市场的连锁反应,近期完成数亿元天使轮融资的模思智能(MOSI)便是典型案例,其投资者包括IDG资本、元禾控股等知名机构,多维资本担任独家财务顾问。
模思智能的技术路线呈现出鲜明的非共识特征。当行业普遍聚焦文本大模型时,该公司选择从语音切入构建全模态架构。其核心逻辑在于:音频信息密度远超文本,天然承载语调、节奏等情感信号,且能与环境动作形成连续输入流,更贴近真实人机交互场景。通过将语音转化为离散Token序列,公司成功构建起跨模态统一计算框架,使机器首次具备在同一体系内处理语音与文本的能力。
这种技术突破在2023年5月发布的SpeechGPT中得到验证,该模型首次实现连续语音信号到离散Token的端到端映射。同年8月推出的SpeechTokenizer进一步将语义Token与声学Token融合,为多模态建模奠定基础。2024年2月发布的AnyGPT则完成关键跨越,将语音、文本、图像、视频统一映射至离散Token体系,开创了真正意义上的全模态基座模型架构。
技术演进呈现清晰的递进关系:2025年7月开源的MOSS-TTSD语音模型,在播客配音等长内容场景展现优势;11月发布的NEX能动性模型体系,在工具使用、后端开发等基准测试中跻身全球前列;2026年推出的MOVA音视频生成模型与MOSS-Audio-Tokenizer音频编码器,持续刷新性能指标。这些成果构成完整的能力闭环,证明离散化架构在多模态智能领域的普适性。
支撑技术突破的是复合型团队结构。首席科学家邱锡鹏作为国家杰青获得者,在端到端语音大模型领域保持技术领先,其著作成为高校经典教材。CEO李世民出身学术体系却具备产业思维,带领近百人团队实现50%博士占比,核心成员多来自复旦大学NLP实验室。区别于传统学术创业,模思智能由上海创智学院与复旦大学联合孵化,获得算力支持、人才网络与产业资源的体系化赋能。
商业化进程同样加速推进。公司多模态大模型开放平台已进入公测阶段,提供稳定高效的API服务,在消费电子、智能汽车等领域与头部企业建立合作。其商业模式围绕词元的全生命周期展开,从基座模型能力输出延伸至2B、2B2C、2C多层级场景,形成技术转化与商业落地的双向驱动。
这场变革背后,是行业对下一代智能本质的深度思考。当参数堆砌与算力竞赛逐渐触及天花板,架构创新与系统组织能力成为新的竞争焦点。模思智能的实践表明,真正的技术壁垒不在于规模扩张,而在于能否提前布局智能系统的核心结构——统一的Token表达体系、持续情境理解能力,以及具备工具调用与长期关系维护的Agent系统。随着“词元”概念进入官方语境,这场关于智能系统边界定义的竞赛才刚刚拉开帷幕。











