阿里巴巴(中国)有限公司近期在专利领域迈出重要一步,企查查APP最新信息显示,该公司已正式申请公布一项名为“一种基于思维链训练大型语言模型的方法、装置和设备”的专利技术。
据专利摘要介绍,这项创新技术通过构建多维度数据体系优化模型训练流程。研究团队首先采集包含图像、辅助文本说明及标准审核结果的大规模初始数据集,随后运用这些数据生成结构化的思维链数据集合。该数据集被用于对基础语言模型进行全量参数微调,形成具备初步处理能力的中间模型。
在迭代优化阶段,技术人员采用双轨并进策略:一方面持续利用原始数据生成新的中间思维链数据,另一方面通过预设的奖励函数对生成数据进行质量评估。特别值得关注的是,该专利创新性地引入组相对策略优化算法(GRPO),通过强化学习机制对中间模型进行深度优化,最终形成具备高解释性和精准审核能力的目标语言模型。
这项技术的突破性在于构建了数据生成-模型微调-强化学习的完整闭环。通过思维链数据的有序传递,既保证了模型训练过程的可追溯性,又显著提升了复杂场景下的审核准确率。专利文件特别强调,该技术方案特别适用于需要高精度内容审核的商业场景,能够有效降低人工复核成本,提升系统整体运行效率。






