AIPress.com.cn报道
2月6日,千问Qwen团队联合阿里巴巴AIData团队、晓天衡宇评测社区正式发布PLaw Bench,这是一个专门针对法律实务场景设计的大模型评测基准。与市面上常见的法律知识问答测试不同,PLaw Bench的核心目标是检验大模型在真实法律工作场景中的表现。
PLaw Bench的做法是全流程还原法律工作场景。研究团队收集了用户咨询记录、律所实务案例和法院公开裁判文书,经过脱敏和改编处理后,设计了13类场景、850道题目和12500条评分细则。
评测分为三大任务模块。
第一个是用户理解。研究团队设计了大量经过改编的当事人陈述,其中充满情绪化表达、事实误导和关键信息缺失。测试要求模型从这些混乱的陈述中识别关键问题,并通过提问来澄清事实。从结果来看,顶尖模型得分接近80分,能有效过滤情感干扰,但也有部分模型出现关键细节遗漏和核心问题误判的情况。
第二个是案例分析。这个模块涵盖个人生活纠纷、公司治理、法律与科技、跨国法律实务等11个类别。研究团队不仅关注模型判断的对错,更聚焦其推理路径是否正确。结果显示各主流大模型得分趋于接近,但最高分未突破70分,表明当前模型在推理严谨性和逻辑闭环性上与专业法律从业者仍有差距。
第三个是文书生成。与用户理解类似,题目以当事人陈述形式展开,其中植入了不合理诉求、错误法律用语和模糊表述。模型需要站在律师视角,从混乱陈述中归纳核心事实,制定诉讼策略,最终生成起诉状或答辩状等文书。最高得分刚过70分,部分模型虽然格式规范,但存在核心事实遗漏和法律关系误判问题。
在总排名中,GPT-5系列表现强势,Gemini 3.0和Claude-sonnet-4-5紧随其后,千问Qwen3-max位居第五。但整体来看,参与测试的模型得分都在60%左右,并未出现具有碾压优势的选手。
研究团队还发现了几个有意思的现象。同一公司训练的模型往往具备相似的特长,比如Gemini系列擅长需要严谨推理的案例分析,GPT系列更擅长总结归纳但在查找法条上存在短板。在涉及中国法律咨询和文书实务时,以Qwen3-Max和DeepSeek-V3.2为代表的国产模型表现更优,对本土法律术语和咨询场景有更精准的语境感知能力。
研究团队表示,PLaw Bench的价值不仅在于提供模型排名,更希望回答一个现实问题:当把真实法律纠纷交给AI处理时,它能有效发挥作用的边界在哪里,哪些环节仍需专业法律从业者介入。
目前相关论文和项目已在arXiv和GitHub公开。












