在人工智能领域,每当有前沿模型问世,行业内外关注的焦点总会落在几张特定的“成绩单”上。MMLU-Pro、MMMU、MMMU-Pro等评测基准,对普通用户而言或许陌生,却是模型开发者和研究人员心中的“标准考卷”。从GPT到Claude,从Gemini到Llama,各大模型在这些基准上的表现,几乎成了衡量其能力的“硬指标”。
模型发布会的性能对比图、HuggingFace上的排行榜,甚至行业内的技术讨论,都离不开这些评测体系的支撑。可以说,它们已经为AI模型的能力评估构建了一套共同的语言。然而,鲜为人知的是,这些基准背后的关键人物——陈文虎,正悄然推动着评测标准的升级与革新。
陈文虎是加拿大滑铁卢大学计算机科学系的助理教授,同时也是“老虎实验室”(TIGERLab)的创始人。这个实验室的全称是Text and Image GEnerative Research Lab,因名字中带有“虎”字,他为其取了一个颇具辨识度的中文名——“虎头帮”。在谷歌学术上,他的论文被引用次数已超过3万次,足见其在学术界的影响力。
陈文虎的“出圈”之作,当属MMLU-Pro。MMLU曾是大语言模型评估中最常用的基准之一,覆盖多个学科,用于衡量模型的知识理解和推理能力。然而,随着模型能力的不断提升,MMLU逐渐显得“力不从心”——前沿模型的分数越来越高,彼此之间的差距越来越小,甚至出现“全员接近满分”的情况。这导致MMLU难以继续区分模型的优劣,评估价值大幅下降。
为了解决这一问题,陈文虎团队在2024年推出了MMLU-Pro。这张“新考卷”并非简单扩大题库,而是对评测体系进行了全面升级:题目数量增至12032道,覆盖数学、物理、化学、法律、工程等14个领域;选项从4个扩展到10个,降低模型靠猜测蒙对的概率;同时加入更多推理类问题,清理掉原题库中简单、歧义或区分度不足的题目。
效果立竿见影。论文数据显示,模型在MMLU-Pro上的准确率相比原版下降了16%至33%;同一模型在不同提示词风格下的成绩波动,也从原MMLU的4%至5%降至约2%。这意味着,MMLU-Pro不仅更难,也更稳定,能够更清晰地展现模型的真实能力差距。
MMLU-Pro很快被行业广泛采用。它不仅入选了NeurIPS2024数据集与基准评测赛道,还被EleutherAI的语言模型评测框架集成,成为开源模型社区的常用工具。许多模型在发布时开始主动报告MMLU-Pro分数,HuggingFace的排行榜也将其纳入评估体系。这张“新考卷”成功解决了旧评测体系的失灵问题,为行业提供了更可靠的评估标准。
如果说MMLU-Pro聚焦于语言模型,那么MMMU则将陈文虎和TIGERLab推到了多模态评测的中心。多模态模型需要同时处理图片、图表、地图、表格等多种信息,其评估难度远高于纯语言模型。MMMU基准评测包含1.15万道多模态问题,覆盖艺术、商业、科学、健康等六大领域,进一步细分为30个学科和183个子领域。这些题目要求模型像学生做专业题一样,结合视觉信息和学科知识进行推理,而非简单描述图片内容。
MMMU的测试结果显示,即便是当时最强的闭源模型GPT-4V和GeminiUltra,准确率也仅达到56%和59%。这表明,多模态模型在专业理解和推理方面仍有巨大提升空间。随后,陈文虎团队又推出MMMU-Pro,进一步限制模型绕过视觉信息的可能性,例如过滤掉仅靠文本就能回答的问题、扩展候选项、引入“仅视觉”设置等,迫使模型真正理解图像内容。
这类工作看似琐碎,实则至关重要。多模态模型未来将应用于医疗、教育、科研、设计等领域,仅靠描述图片远远不够——它们必须具备判断、推理和解释能力,能在复杂视觉信息中提取关键内容。陈文虎的评测基准,正是为这一目标提供了“标尺”。
陈文虎的研究兴趣始终围绕复杂信息理解、知识问答和推理展开。他本科毕业于华中科技大学,硕士就读于德国亚琛工业大学,后在加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间,他已开始研究复杂问答、表格推理等方向,参与过HybridQA、TabFact等项目。这些经历让他对模型评估中的漏洞格外敏感——好的基准评测应预判模型可能“蒙对”或“绕过”的场景,而非单纯增加难度。
博士毕业后,陈文虎加入谷歌研究院,随后参与谷歌DeepMind的Gemini多模态模型和评估工作。这段经历让他更深入地了解模型能力的增长方式,也更容易发现评估中的偏差和盲区。2022年,他加入滑铁卢大学计算机科学学院,并创办“老虎实验室”,继续围绕基础模型、多模态能力和基准评测展开研究。
“虎头帮”的研究不仅限于评测基准。在视频方向,他们开发了UniVideo框架,试图将视频理解、生成和编辑整合为一体;Vamba项目则聚焦长视频理解,解决显存、计算和训练效率问题;与meta合作的MoCha项目,则通过语音和文字描述生成高质量虚拟角色视频。这些研究让团队更了解模型的实际能力边界,从而设计出更有效的评估题目。
如今,陈文虎已加入meta超级智能实验室,专注于多模态预训练数据和评估,服务于meta的基础模型研发。在AI行业,聚光灯通常照向创业者、明星研究员或大模型公司负责人,但像陈文虎这样的研究者,正以另一种方式推动着技术的进步——他们或许不常出现在公众视野中,却为行业构建了更坚实的评估体系。









