在人工智能生成图像与视频技术迅猛发展的当下,如何让AI精准理解人类输入的文字指令,始终是科研人员攻克的核心难题。近日,由北京大学、西安交通大学、快手科技及中科院联合团队提出的GRAN-TED文本编码器,为破解这一瓶颈提供了创新方案。该研究通过构建新型评估体系与优化训练策略,显著提升了AI对复杂文本的解析能力,相关成果已发表于学术平台,论文编号arXiv:2512.15560v2。
传统AI生成工具常因文本理解偏差导致“答非所问”。例如用户要求生成“三只红猫坐在绿沙发上”,系统却输出“两只蓝狗站在红椅子旁”。这类错误源于现有文本编码器在处理数量、空间关系、时间序列等维度时存在理解短板。研究团队指出,文本编码器作为AI系统的“语言中枢”,其转换自然语言为数字信号的质量,直接决定了生成内容的准确性。
为突破评估瓶颈,团队开发了TED-6K评估体系。该体系包含6641个测试样本,覆盖动作识别、指代消歧、形容词理解等九大维度,通过判断题形式检验编码器对文本细节的捕捉能力。以空间关系测试为例,系统会给出“桌上红苹果左侧有蓝书”的描述,并要求从选项中选出正确方位图。实验显示,TED-6K的评估结果与实际生成效果相关性达0.99以上,且评估效率较传统方法提升750倍,仅需数分钟即可完成原本需数十小时的完整模型训练测试。
基于统一评估框架,团队对主流编码器进行横向对比发现:基于解码器架构的大型语言模型在文本理解上优于传统编码器;经多模态训练的模型表现显著优于纯文本模型,表明视觉信息可辅助文本概念理解;多层特征融合策略比单层输出更具优势,类似人类理解文本时需综合全文逻辑而非仅关注结论。
GRAN-TED的构建以Qwen3-VL-8B-Instruct模型为基础,采用两阶段训练策略。首阶段通过微调训练,让模型在包含物体属性、空间关系等维度的大规模视觉问答数据集中学习;次阶段引入层级特征加权机制,使模型根据生成阶段动态调整文本特征权重——早期聚焦整体结构,后期强化细节纹理。为确保训练稳定性,团队采用两步法:先联合训练权重与主模型,待权重收敛后固定参数,继续优化主模型。
实验数据显示,GRAN-TED在TED-6K基准测试中得分57.42,较基础模型提升0.6分;在文本到图像生成任务中,GenAI-Bench评分提高1.24分;视频生成任务提升更显著,达2.39分。具体改进体现在动作识别、时间关系理解等维度,生成的图像视频更贴合文本描述,减少了常见理解错误。
研究还揭示了指令调优对编码能力的非线性影响——部分场景下过度调优反而降低性能,提示需平衡训练目标。模型规模扩张仅在多层特征融合时显著提升性能,单层特征扩展效果有限。这些发现为后续优化提供了方向。
GRAN-TED的技术突破不仅体现在性能提升,更在于为行业提供了标准化评估工具与特征融合新范式。TED-6K体系已开源,可供研究者快速比对不同编码器性能;层级权重机制则释放了大型语言模型的潜力,使文本特征利用更高效。
对于普通用户,更精准的文本理解将直接改善AI创作体验。内容创作者可快速生成符合需求的配图,教育工作者能制作更生动的教学素材,普通用户也能更轻松地将创意转化为视觉作品。随着技术迭代,AI生成工具有望摆脱“提示词调试”的困扰,真正成为人类创意的延伸。
针对当前局限,研究团队指出GRAN-TED在空间关系精确度、文字识别等方面仍有改进空间。这些方向或将成为下一代文本编码器的研发重点,推动AI创作向更高精度迈进。
Q&A
Q:TED-6K评估体系如何运作?
A:该体系通过6641个测试样本检验文本编码器,每个样本包含详细描述与九维度判断题,覆盖动作、空间、时间等关键信息。测试无需生成图像视频,仅通过文本交互即可完成,效率较传统方法提升750倍。
Q:GRAN-TED的核心创新是什么?
A:其采用两阶段训练:首阶段在视觉问答数据集中微调模型,强化对视觉相关文本的理解;次阶段通过层级特征加权机制,使模型根据生成阶段动态组合不同层级的文本特征,提升整体准确性。
Q:普通用户何时能体验这项技术?
A:研究团队已开源代码与评估工具,预计1-2年内主流AI平台将逐步集成相关技术。届时用户使用生成工具时,将减少因文本理解偏差导致的返工,创作流程更高效。






