滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

AI模型“大考”背后：华人学者陈文虎如何用评测基准推动行业进步？

时间：2026-06-19 17:00:15 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，每当有前沿模型问世，行业内外关注的焦点总会落在几张特定的“成绩单”上。MMLU-Pro、MMMU、MMMU-Pro等评测基准，对普通用户而言或许陌生，却是模型开发者和研究人员心中的“标准考卷”。从GPT到Claude，从Gemini到Llama，各大模型在这些基准上的表现，几乎成了衡量其能力的“硬指标”。

模型发布会的性能对比图、HuggingFace上的排行榜，甚至行业内的技术讨论，都离不开这些评测体系的支撑。可以说，它们已经为AI模型的能力评估构建了一套共同的语言。然而，鲜为人知的是，这些基准背后的关键人物——陈文虎，正悄然推动着评测标准的升级与革新。

陈文虎是加拿大滑铁卢大学计算机科学系的助理教授，同时也是“老虎实验室”（TIGERLab）的创始人。这个实验室的全称是Text and Image GEnerative Research Lab，因名字中带有“虎”字，他为其取了一个颇具辨识度的中文名——“虎头帮”。在谷歌学术上，他的论文被引用次数已超过3万次，足见其在学术界的影响力。

陈文虎的“出圈”之作，当属MMLU-Pro。MMLU曾是大语言模型评估中最常用的基准之一，覆盖多个学科，用于衡量模型的知识理解和推理能力。然而，随着模型能力的不断提升，MMLU逐渐显得“力不从心”——前沿模型的分数越来越高，彼此之间的差距越来越小，甚至出现“全员接近满分”的情况。这导致MMLU难以继续区分模型的优劣，评估价值大幅下降。

为了解决这一问题，陈文虎团队在2024年推出了MMLU-Pro。这张“新考卷”并非简单扩大题库，而是对评测体系进行了全面升级：题目数量增至12032道，覆盖数学、物理、化学、法律、工程等14个领域；选项从4个扩展到10个，降低模型靠猜测蒙对的概率；同时加入更多推理类问题，清理掉原题库中简单、歧义或区分度不足的题目。

效果立竿见影。论文数据显示，模型在MMLU-Pro上的准确率相比原版下降了16%至33%；同一模型在不同提示词风格下的成绩波动，也从原MMLU的4%至5%降至约2%。这意味着，MMLU-Pro不仅更难，也更稳定，能够更清晰地展现模型的真实能力差距。

MMLU-Pro很快被行业广泛采用。它不仅入选了NeurIPS2024数据集与基准评测赛道，还被EleutherAI的语言模型评测框架集成，成为开源模型社区的常用工具。许多模型在发布时开始主动报告MMLU-Pro分数，HuggingFace的排行榜也将其纳入评估体系。这张“新考卷”成功解决了旧评测体系的失灵问题，为行业提供了更可靠的评估标准。

如果说MMLU-Pro聚焦于语言模型，那么MMMU则将陈文虎和TIGERLab推到了多模态评测的中心。多模态模型需要同时处理图片、图表、地图、表格等多种信息，其评估难度远高于纯语言模型。MMMU基准评测包含1.15万道多模态问题，覆盖艺术、商业、科学、健康等六大领域，进一步细分为30个学科和183个子领域。这些题目要求模型像学生做专业题一样，结合视觉信息和学科知识进行推理，而非简单描述图片内容。

MMMU的测试结果显示，即便是当时最强的闭源模型GPT-4V和GeminiUltra，准确率也仅达到56%和59%。这表明，多模态模型在专业理解和推理方面仍有巨大提升空间。随后，陈文虎团队又推出MMMU-Pro，进一步限制模型绕过视觉信息的可能性，例如过滤掉仅靠文本就能回答的问题、扩展候选项、引入“仅视觉”设置等，迫使模型真正理解图像内容。

这类工作看似琐碎，实则至关重要。多模态模型未来将应用于医疗、教育、科研、设计等领域，仅靠描述图片远远不够——它们必须具备判断、推理和解释能力，能在复杂视觉信息中提取关键内容。陈文虎的评测基准，正是为这一目标提供了“标尺”。

陈文虎的研究兴趣始终围绕复杂信息理解、知识问答和推理展开。他本科毕业于华中科技大学，硕士就读于德国亚琛工业大学，后在加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间，他已开始研究复杂问答、表格推理等方向，参与过HybridQA、TabFact等项目。这些经历让他对模型评估中的漏洞格外敏感——好的基准评测应预判模型可能“蒙对”或“绕过”的场景，而非单纯增加难度。

博士毕业后，陈文虎加入谷歌研究院，随后参与谷歌DeepMind的Gemini多模态模型和评估工作。这段经历让他更深入地了解模型能力的增长方式，也更容易发现评估中的偏差和盲区。2022年，他加入滑铁卢大学计算机科学学院，并创办“老虎实验室”，继续围绕基础模型、多模态能力和基准评测展开研究。

“虎头帮”的研究不仅限于评测基准。在视频方向，他们开发了UniVideo框架，试图将视频理解、生成和编辑整合为一体；Vamba项目则聚焦长视频理解，解决显存、计算和训练效率问题；与meta合作的MoCha项目，则通过语音和文字描述生成高质量虚拟角色视频。这些研究让团队更了解模型的实际能力边界，从而设计出更有效的评估题目。

如今，陈文虎已加入meta超级智能实验室，专注于多模态预训练数据和评估，服务于meta的基础模型研发。在AI行业，聚光灯通常照向创业者、明星研究员或大模型公司负责人，但像陈文虎这样的研究者，正以另一种方式推动着技术的进步——他们或许不常出现在公众视野中，却为行业构建了更坚实的评估体系。

更多>同类资讯

亚马逊拟售Trainium芯片拓展市场，挑战英伟达抢抓AI基础设施新机遇

06-19

京东阿里快手等大厂竞相布局家装赛道万亿市场格局重塑进行时

06-19

联想拯救者Y70新机来袭！2K屏+8000mAh+四卡双待，2209元畅玩3A大作

目前的市场反响非常热烈，联想拯救者Y70新一代上市价补贴到了2209元，即便是顶配的16GB+1TB版本也补贴到了3899元，让顶级性能与海量存储触手可及。它通过顶级性能、恐怖续航以及创新的全境畅连功能，在中…

06-19

Codex开放第三方模型接入，DeepSeek实测体验：有潜力但门槛待降

过去很多人吐槽 OpenAI封闭，其实不光是因为模型不开源，更核心的原因是它的工具、模型和工作流都被整个包在自家体系里，你可以用，但很难拆开重组。 DeepSeek V4Pro 一开始尝试的时候内置网页…

06-19

马斯克与唐杰“隔空对话”：中国大模型何时追上Fable？

06-19

“AI 教父”杨立昆锐评马斯克：xAI“失败”、SpaceX 出色

06-19

传比亚迪计划让旗下各子品牌自负盈亏，官方暂无回应

06-19

智能体支付浪潮涌动：大厂竞逐新赛道，信任与标准成破局关键

06-19

AI支付新赛道：支付宝微信各展身手，谁能率先解锁未来支付新图景？

06-19

Seedance成“香饽饽”：剪映即梦等字节应用，谁能抢到AI视频新先机？

06-19

SSD价格高涨催生HDD回潮：机械硬盘连续五季涨价，市场格局生变

06-19

谷歌携手艺术家打造全球首座AI艺术馆，数据作画呈现12亿像素超现实奇景

06-19

Anthropic 7月9日将办IPO前财务会，收入增长与上市计划成焦点

06-19

AI时代新趋势：科技巨头百万年薪揽哲学家，人文与技术共筑未来

但在生成式AI时代，算法的偏见会触及种族、性别、宗教等问题，甚至人类生存权的根基。当所有模型都拥有同等强大的算力和算法，决定一家AI企业走多远、活多久、格局多大的，不再是技术优势，而是底层认知、价值体系与伦理…

06-19

小米Xiaomi Miloco 2.0发布开源：接入OpenClaw实现本地离线全屋智能新体验

06-19

点击查看更多 +

全站最新

内存芯片成本飙升，苹果计划提价应对，库克称涨价已“难以为继”但别无选择

《中俄艺联·万象共生》书画展落幕：以笔墨丹青为媒续写中俄文化交融新篇章

全新奥迪A6 allroad官图发布插混动力配空气悬架跨界旅行新选择

四年驾车经验总结：机油别盲目换，这四大信号才是换油黄金标准

宝马新世代i3欧洲开启订购：四驱双电机+超长续航，国产版四季度将投产

氢能车与电动车“同台竞技”：谁主沉浮？未来出行格局如何演变？

热门内容

本栏最新

内存芯片成本飙升，苹果计划提价应对，库克称涨价已“难以为继”但别无选择

《中俄艺联·万象共生》书画展落幕：以笔墨丹青为媒续写中俄文化交融新篇章

成本攀升压力下，2026年7月起华为乾崑智驾ADS高阶功能包或涨3000元

成本攀升压力下，2026年7月起华为乾崑智驾ADS高阶功能包或涨价3000元

钉钉新CEO陈宇森首封全员信：调整组织架构，多位业务负责人确定

苹果CEO库克确认产品将涨价，内存芯片成本飙升成主因

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.