千问Qwen团队携手阿里巴巴AIData团队及晓天衡宇评测社区,共同推出了一款专注于法律实务场景的大模型评测基准——PLaw Bench。这一创新举措旨在填补现有法律评测体系的空白,通过模拟真实法律工作环境,全面评估大模型在处理复杂法律问题时的能力。
为解决这些问题,PLaw Bench构建了一个高度贴近实际的评测框架。研究团队深入挖掘用户咨询记录、律所实务案例及法院裁判文书,经过脱敏处理后,设计了涵盖13类法律场景的850道题目,并制定了12500条详细的评分标准。这一体系不仅覆盖了从用户咨询到文书生成的全流程,还特别强调对模型推理过程和逻辑严谨性的考察。
评测任务分为三个核心模块。在用户理解模块中,模型需从情绪化、碎片化的当事人陈述中提取关键信息,并通过追问澄清事实。测试结果显示,顶尖模型能够较好地过滤情感干扰,但仍有部分模型在关键细节识别和核心问题判断上存在不足。案例分析模块则聚焦于模型对复杂法律问题的推理能力,涵盖个人纠纷、公司治理、跨国法律实务等多个领域。尽管主流模型得分接近,但最高分未达70分,表明其在逻辑闭环性方面仍有提升空间。
文书生成模块要求模型根据混乱的当事人陈述,归纳核心事实、制定诉讼策略,并生成规范的起诉状或答辩状。这一任务对模型的综合能力提出了更高要求,测试中最高得分仅略超70分,部分模型虽格式正确,但存在事实遗漏和法律关系误判等问题。这些结果反映出,当前大模型在处理真实法律事务时,仍需在事实提取、逻辑推理和法律适用等关键环节加强训练。
在整体排名中,GPT-5系列模型表现突出,Gemini 3.0和Claude-sonnet-4-5紧随其后,千问Qwen3-max位列第五。值得注意的是,所有参与评测的模型得分均集中在60分左右,未出现明显领先者,显示出当前法律大模型在实务应用中的普遍局限性。
研究还发现,同一技术路线下的模型往往呈现相似的优势领域。例如,Gemini系列在需要严密推理的案例分析中表现优异,而GPT系列则更擅长信息归纳,但在法条检索方面存在短板。在处理中国法律咨询和文书实务时,Qwen3-Max和DeepSeek-V3.2等国产模型展现出更强的语境适应能力,能够更准确地理解本土法律术语和咨询场景。
PLaw Bench的推出不仅为法律大模型的性能评估提供了新标准,更引发了对AI在法律领域应用边界的深入思考。研究团队强调,该项目的核心目标并非单纯比较模型优劣,而是通过系统化评测,明确AI在处理真实法律纠纷时的能力边界,为技术开发者与法律从业者提供合作参考。目前,相关研究论文和评测数据已在学术平台和开源社区公开,供全球研究者进一步探索和完善。








